<ul id="g60s4"><pre id="g60s4"></pre></ul>
<strong id="g60s4"><nav id="g60s4"></nav></strong>
<ul id="g60s4"></ul>
  • <tr id="g60s4"></tr>
  • 
    
  • 或者

    淺述搜索引擎的兩種分詞算法

    作者:川藏線。 瀏覽:149 發(fā)布時間:2017-11-01
    分享 評論 0

    21世紀互聯(lián)網(wǎng)的快速發(fā)展讓人們生活越來越便利,當日益劇增的海量信息讓我們眼花繚亂時,搜索引擎的出現(xiàn)可以讓我們快速找到自己想要的答案。因此多了解搜索引擎的分詞算法,可以讓網(wǎng)站在搜索引擎上獲得更好的展現(xiàn)機會。在講解中文分詞技術(shù)之前,先來了解下全文檢索技術(shù)。


    全文檢索技術(shù)


    全文檢索是指索引程序掃描文章中的每個詞并建立對應(yīng)索引,記錄該詞出現(xiàn)的位置和次數(shù)。當通過搜索引擎查詢時,檢索程序就在記錄的索引進行查找并返回給用戶。全文檢索又分為基于字的全文索引和基于詞的全文索引。基于字的全文索引會對內(nèi)容中的每個字建立索引并記錄,此方法查全率高,但查準率低,特別是對于中文,有時搜索馬克,會列出馬克思的結(jié)果。基于詞的全文索引是把一個詞語作為一個單位進行索引記錄,并能處理同義詞。搜索引擎有自己的詞庫,當用戶搜索時,搜索引擎會從詞庫中抽取關(guān)鍵詞作為索引項,這樣可以大大提高檢索的準確率。


    中文分詞技術(shù)


    一直以來大家都比較熟悉百度,百度有自己的中文分詞技術(shù)。一般采用的包括正向最大匹配,反向最大匹配,最佳匹配法,專家系統(tǒng)方法等。其中最大正向匹配是最常用的分詞解決方案,它采用機械式算法,通過建立詞典并進行正向最大匹配對中文進行分詞。舉個簡單的例子比如搜索“北京大學(xué)在哪里”,則返回結(jié)果很多都是包含北京大學(xué),北大等詞語的網(wǎng)頁,搜索引擎就是采用正向最大匹配去判斷,把北京大學(xué)當做一個詞語來索引記錄并返回。當然,正向最大匹配也有不完整性,比如長度過長的詞語,搜索引擎有時無法準確的分詞,或者對前后都相互關(guān)聯(lián)的詞無法準確分詞。例如“結(jié)合成分子時”,會被返回結(jié)合、成分、子時,而有時我們想要的關(guān)鍵詞是“分子”。


    很多時候百度都會根據(jù)自己詞庫中詞語的權(quán)重進行拆分,權(quán)重的計算基于生活各個方面,比較復(fù)雜,搜索引擎要做的就是返回用戶最想要的結(jié)果,有時站長們做網(wǎng)站要站在用戶的角度去考慮問題,其實這也是站在搜索引擎的角度考慮問題,不論在確定目標關(guān)鍵詞或者是長尾關(guān)鍵詞時,都可以根據(jù)中文分詞的原理來選擇,這樣可以最大化的減少無用功。


    分詞原理不斷在變化,不斷在更新,我們應(yīng)該繼續(xù)學(xué)習(xí),只有掌握了本質(zhì)才能抓住實質(zhì)。


    久久精品免费一区二区| 久久精品国产99久久99久久久| 热久久99精品这里有精品| 精品91自产拍在线| 亚洲综合一区二区精品久久| 久久久亚洲精品视频| 久热香蕉精品视频在线播放| 亚洲精品无码专区在线在线播放| 久久人人爽人人精品视频| 国产精品亚洲高清一区二区 | 午夜天堂精品久久久久| 久久精品一区二区三区不卡| 亚洲精品无码久久千人斩| 99精品视频在线观看免费| 精品福利一区二区三区精品国产第一国产综合精品 | 国产精品无码午夜福利| 99热这里只有精品在线| 久久免费99精品国产自在现线| 精品久久久久久国产免费了| 亚洲精品美女久久久久99小说| 青娱乐精品视频在线观看| 日韩一级视频免费观看| 亚洲欧美日韩中文高清www777| 日韩av无码久久精品免费| 亚洲AV日韩精品久久久久久 | 久久久无码精品亚洲日韩软件| 2021最新国产精品网站| 国产成人精品天堂| 国产精品久久自在自线观看| 国产精品视频网站你懂得| 久久精品无码一区二区WWW| 亚洲国产精品综合久久20| 国产精品乳摇在线播放| 囯产精品久久久久久久久久妞妞| 亚洲精品人成网在线播放影院| 国产精品中文久久久久久久| 日韩欧美亚洲国产精品字幕久久久| 国产精品久久久久久亚洲影视 | 亚洲av午夜国产精品无码中文字| 在线精品视频一区二区| 国产精品99久久不卡|