<ul id="g60s4"><pre id="g60s4"></pre></ul>
<strong id="g60s4"><nav id="g60s4"></nav></strong>
<ul id="g60s4"></ul>
  • <tr id="g60s4"></tr>
  • 
    
  • 或者

    中文分詞技術的分類和進行分詞的原因

    作者:花開無聲 瀏覽:104 發布時間:2017-07-22
    分享 評論 0

      為什么要進行中文分詞:詞是最小的能夠獨立活動的有意義的語言成分,英文單詞之間是以空格作為自然分界符的,而漢語是以字為基本的書寫單位,詞語之間沒有明顯的區分標記,因此,中文詞語分析是中文信息處理的基礎與關鍵。

      Lucene中對中文的處理是基于自動切分的單字切分,或者二元切分。除此之外,還有最大切分(包括向前、向后、以及前后相結合)、最少切分、全切分等等。

      中文分詞技術的分類:

      我們討論的分詞算法可分為三大類:基于字典、詞庫匹配的分詞方法;基于詞頻度統計的分詞方法和基于知識理解的分詞方法。

      第一類方法應用詞典匹配、漢語詞法或其它漢語語言知識進行分詞,如:最大匹配法、最小分詞方法等。這類方法簡單、分詞效率較高,但漢語語言現象復雜豐富,詞典的完備性、規則的一致性等問題使其難以適應開放的大規模文本的分詞處理。第二類基于統計的分詞方法則基于字和詞的統計信息,如把相鄰字間的信息、詞頻及相應的共現信息等應用于分詞,由于這些信息是通過調查真實語料而取得的,因而基于統計的分詞方法具有較好的實用性。


    久久国产成人精品| 国产精品一区二区三区免费| 亚洲AV无码精品国产成人| 久久精品国产亚洲精品2020| 国产精品视频一区二区三区无码| 国产精品自产拍在线18禁| 欧美日韩精品SUV| 日韩在线观看视频黄| 在线观看精品国产福利片尤物| 亚洲AV无码精品国产成人| 无码国产精品一区二区免费式影视 | 国产精品内射后入合集| 窝窝午夜色视频国产精品东北 | 国产精品久久久久天天影视| 久久精品国产亚洲AV大全| 午夜精品免费在线观看| 久久99热精品这里久久精品| 亚洲国产精品乱码一区二区| 国产国产精品人在线视| 久久青青草原国产精品免费| 亚洲一区精品无码| 久久99热狠狠色精品一区| 亚洲精品无码mv在线观看网站| 国内精品人妻无码久久久影院导航| 97r久久精品国产99国产精| 久久精品成人免费观看97| 九九久久精品国产| 久久久久亚洲精品男人的天堂| freesexvideos精品老师毛多| www.99精品视频在线播放| 合区精品中文字幕| 国产精品青青在线观看爽香蕉| 国产成人精品一区在线| 精品第一国产综合精品蜜芽| 亚洲日韩国产精品乱| 国产精品国产三级国产| 国产手机在线精品| 国产亚洲精品国看不卡| 99精品国产在热久久| 国产一成人精品福利网站| 亚洲AV无码成人精品区在线观看 |