<ul id="g60s4"><pre id="g60s4"></pre></ul>
<strong id="g60s4"><nav id="g60s4"></nav></strong>
<ul id="g60s4"></ul>
  • <tr id="g60s4"></tr>
  • 
    
  • 或者

    網站中的文本相似度也異常重要。

    作者:TOP SEO 瀏覽:284 發布時間:2018-05-12
    分享 評論 0

    網站中的文本相似度也異常重要。

    1.jpg

      在今日頭條中,用戶反饋了大量的問題在這中間提到最多的問題就是網站中為什么總推薦一些重要的問題?對于這種情況來說,不同的人重復的內容意義不同。舉個例子來說,有人在看一些將娛樂八卦的文章。但這些文章確是昨天已經看到的類似內容,那么今天再看,它就是重復的了。對于如何解決這一內容,我們就需要能夠判斷相似的文章,看看他們的主題、主體等內容,然后根據這些內容做一些線上策略。


      同樣的文章中還有一些時空特征,這些特征能夠幫助我們分析內容發生的地點以及它的時效。比如在傷害現行的事情推給廣州的用戶就沒有意義。在文本的最后我們還要考慮與質量相關的特征。來判斷文章的內容是低俗還是軟文亦或是雞湯。


      另外我們要知道語義標簽的特征以及它能夠使用的場景。要知道在他們之間存在著不同的層級以及不同的要求。


      而作為分類的目標他就是能夠覆蓋全面,希望網站中的每一篇文章每一個視頻都能夠分類,它的實體體系要求更加準確,要知道相同的名字或相同的內容指定的人或物也不盡相同,覆蓋的范圍也不全面,而在概念體系中,它主要解決一些較為精確,但又有些抽象的語義。這些就是網站最初的分類。


      目前,隱式語義特征已經可以很好的幫助推薦,而語義標簽需要持續標注,新名詞新概念不斷出現,標注也要不斷迭代。其做好的難度和資源投入要遠大于隱式語義特征,那為什么還需要語義標簽?有一些產品上的需要,比如頻道需要有明確定義的分類內容和容易理解的文本標簽體系。語義標簽的效果是檢查一個公司NLP技術水平的試金石。


      網站中的


      今日頭條推薦系統的線上分類采用典型的層次化文本分類算法。最上面Root,下面第一層的分類是像科技、體育、財經、娛樂,體育這樣的大類,再下面細分足球、籃球、乒乓球、網球、田徑、游泳...,足球再細分國際足球、中國足球,中國足球又細分中甲、中超、國家隊...,相比單獨的分類器,利用層次化文本分類算法能更好地解決數據傾斜的問題。有一些例外是,如果要提高召回,可以看到我們連接了一些飛線。這套架構通用,但根據不同的問題難度,每個元分類器可以異構,像有些分類SVM效果很好,有些要結合CNN,有些要結合RNN再處理一下。


      上圖是一個實體詞識別算法的case。基于分詞結果和詞性標注選取候選,期間可能需要根據知識庫做一些拼接,有些實體是幾個詞的組合,要確定哪幾個詞結合在一起能映射實體的描述。如果結果映射多個實體還要通過詞向量、topic分布甚至詞頻本身等去歧,最后計算一個相關性模型。


    99国产精品永久免费视频| 久久精品一区二区三区不卡| 精品国产精品久久一区免费式| 99国产精品热久久久久久夜夜嗨| 自拍中文精品无码| 国产精品美女久久久久久久| 午夜精品久久久久| 91综合精品网站久久| 国产精品9999久久久久| 久热精品视频第一页| 日韩免费无码一区二区视频| 国产综合精品在线| 国产精品无码2021在线观看| 模特私拍国产精品久久| 亚洲精品国产福利在线观看| 久久精品国产网红主播| 亚洲国产精品无码AAA片| 国产伦精品一区二区三区| 中日欧洲精品视频在线| 国产精品成人久久久久三级午夜电影| 亚洲日韩激情无码一区| 国产揄拍国内精品对白| 精品国产_亚洲人成在线| 亚洲а∨精品天堂在线| 国产精品一区二区久久| 久久精品国产99久久久古代| 久久99精品一区二区三区| 久久国产乱子伦精品免费一| 三级高清精品国产| 国产自偷亚洲精品页65页| 久久91精品综合国产首页| 500av导航大全精品| 精品国产一区二区三区AV性色| 一本大道无码日韩精品影视_| 中文字幕av日韩精品一区二区| 国产精品亚洲色婷婷99久久精品| 国产精品爽爽V在线观看无码| 国产亚洲精品bv在线观看| 69久久夜色精品国产69| 国产精品国产福利国产秒拍| 日韩免费精品视频|