<ul id="g60s4"><pre id="g60s4"></pre></ul>
<strong id="g60s4"><nav id="g60s4"></nav></strong>
<ul id="g60s4"></ul>
  • <tr id="g60s4"></tr>
  • 
    
  • 或者

    什么是搜索引擎的正排索引?

    作者:安徒生 瀏覽:474 發布時間:2018-04-07
    分享 評論 0

    正排索引也稱為“前向索引”。它是創建倒排索引的基礎,具有以下字段。

    (1)Localld字段(表中簡稱“Lid”):表示一個文檔的局部編號。

    (2)Wordld字段:表示文檔分詞后的編號,也可稱為“索引詞編號”。

    (3)NHits字段:表示某個索引詞在文檔中出現的次數。

    (4)HitList變長字段:表示某個索引詞在文檔中出現的位置,即相對于正文的偏移量。

    由于一篇文章中的某些詞可能出現多次,而且位置不同,而全文檢索的本質要求是把這些位置標識出來,因此HitList中的每個命中都表示索引詞在文檔的某個位置中出現了一次,這個序列為單調遞增序列。基于游程編碼的方法,變升序序列為差分序列,采用前文提到的Variable Byte Coding方法編碼可以大大壓縮正排索引的HitList字段。

    事實上,文檔編號在不同的計算過程里,分別稱為局部編號和全局編號,它們在編號長度上稍有不同,為了便于理解,不區別這些區別,認為Localld和Docld完全一致,都表示一個文檔的唯一編號。在正排索引中Localld采用升序序列編號(假定編號采用自增1的方式遞增),這為下面的計算創造條件。進行倒排索引的轉化時,由于正排索引中Lid天然的有序性,因此在正排索引轉化為倒排索引的創建過程中,自然可以保證倒排索引中每個詞匯對應的文檔編號也是有序的.
     

    本質上說,正排索引以文檔編號為視角看待索引詞,也就是通過文檔編號去找索引詞。任給一個文檔編號,能夠知道它包含了哪些索引詞、這些索引詞分別出現的次數,以及索引詞出現的位置。然而全文索引是通過關鍵詞來檢索,而不是通過文檔編號來檢索,因此正排索引不能滿足全文檢索的要求。

    雖然正排索引不能滿足全文檢索的需要,但是正排索引為創建倒排索引創造了有利條件,是計算倒排索引的不可缺少的一環。


    国产精品十八禁在线观看| 精品国产伦一区二区三区在线观看| 一区二区精品久久| 日韩AV高清无码| 国产成人精品免费直播| 国产麻豆va精品视频| 人妻精品久久无码区| 国产午夜亚洲精品| 国产精品蜜芽在线观看| 精品日产卡一卡二卡国色天香| 99久久99久久免费精品小说| 久久精品女人毛片国产| 国产精品v片在线观看不卡| 精品久久久久久久| 久久99国产精品久久99| 精品亚洲综合久久中文字幕| 亚洲精品无码MV在线观看| 538prom精品视频线放| 亚洲午夜国产精品无码| 一本色道久久综合亚洲精品| 99精品福利国产在线导航| 亚洲日韩精品射精日| 国产午夜精品无码| 久久精品一区二区国产| 久久99精品综合国产首页| 国产成人精品日本亚洲| 久久精品一区二区三区日韩| 久久91精品国产一区二区| 日韩精品无码一本二本三本| 少妇人妻偷人精品无码视频新浪| 亚洲国产精品自在线一区二区| 日韩精品一区二区亚洲AV观看| 99re6这里只有精品| 亚洲欧洲日本精品| 97久久久精品综合88久久| 一区二区亚洲精品精华液| 国产精品国产三级国产AV麻豆 | 国产精品专区第二| 久久精品免费全国观看国产| 亚洲国产成人久久精品大牛影视| 国产精品久久久久久久小说|