百度是如何把搜索結果序列展現給用戶的




要探討當用戶使用百度搜索引擎查詢關鍵詞的時候,百度如何把結果序列展現給用戶。
一、特征詞庫的類別的建立與更新
眾所周知,百度有特征詞庫,通過特征詞庫,可以對用戶查詢序列,進行判斷。例如:當用戶搜索“天龍八部在線觀看” 、 “射雕英雄傳在線觀看” 、 “鹿鼎記在線觀看” 、 “電視劇在線觀看” 時, 由于這些待挖掘序列中的 “天龍八部” 、 “射雕英雄傳” 、 “鹿鼎記” 、 “電視劇” 在需求特征詞庫中屬于視頻類需求的特征詞, 并且 “在線觀看” 這一關鍵詞與上述視頻類需求的特征詞的共現頻次達到一定閾值(共現閾值)時,根據關鍵詞 “在線觀看” , 提取關鍵詞 “在線觀看” 與視頻需求類別的映射關系, 并根據映射關系來建立或更新需求特征詞庫。
二、對詞條的分類
首先對查詢序列進行切詞處理獲得切分后的詞條, 再通過諸如對詞條進行語義分析或根據詞條在需求特征詞庫中進行匹配查詢等方式, 來獲得所述候選需求類別。例如:用戶的查詢序列為 “土豆上的熱門影視劇” 時, 通過對其進行切詞處理, 得到 “土豆 /熱門 / 影視劇” , 由于影視劇一詞具有明顯的需求類別, 諸如視頻、 下載、 圖片、 演員介紹,再通過諸如對詞條進行語義分析或根據所述詞條在需求特征詞庫中進行匹配查詢等方式, 來獲得候選需求類別。
當挖掘序列相對應的分類結果的用戶累計點擊次數超過預設點擊閾值時, 基于所述分類結果所對應的需求類別, 提取待挖掘序列與需求類別的映射關系, 并根據映射關系來建立或更新需求特征詞庫,例如, 當待挖掘序列為“日本地震” 時, 根據該待挖掘序列對應的分類結果, 如視頻類搜索結果、 新聞類搜索結果、圖片類搜索結果, 若視頻類搜索結果對應的用戶累計點擊次數為 300, 新聞類搜索結果對應的用戶累計點擊次數為 25000, 圖片類搜索結果對應的用戶累計點擊次數為 700, 預設點擊閾值為 10000 時, 將待挖掘序列對應的分類結果的用戶累計點擊次數與預設點擊閾值進行比較, 并根據高于所述預設點擊閾值的分類結果所對應的需求類別, 即新聞需求類別, 提取該待挖掘序列與新聞需求類別間的所述映射關系, 并根據映射關系來建立或更新需求特征詞庫。
三、獲取需求度
1、獲取與用戶的查詢序列相對應的原始搜索結果
2、獲取與查詢序列相對應的候選需求類別
對原始搜索結果進行處理,根據查詢序列, 通過諸如對查詢序列進行語義分析或根據查詢序列在需求特征詞庫中進行匹配查詢等方式, 來獲得候選需求類別。例如, 當用戶的查詢序列為 “土豆上的熱門影視劇” 時, 通過對其進行切詞處理, 得到 “土豆 / 熱門 /影視劇” , 由于影視劇一詞具有明顯的需求類別, 諸如視頻、 下載、 圖片、 演員介紹, 對該查詢序列進行語義分析或在需求特征詞庫中進行匹配查詢, 來獲得候選需求類別, 例如根據 “影視劇” 可知該查詢序列對應的候選需求類別包括視頻、 下載、 圖片、 演員介紹。
3、根據查詢序列與候選需求類別,確定與查詢序列相對應的類別需求度
根據查詢序列和候選需求類別, 通過諸如對該查詢序列所對應的搜索結果按類別進行統計分析或者對關于搜索結果的歷史點擊記錄按類別進行統計分析, 確定所述查詢序列對于每一候選需求類別的類別需求度。例如:“×× 影視明星” 時, 根據查詢序列,得到候選需求類別包括視頻、 新聞、 背景介紹、 音樂、 圖片, 然后根據查詢序列和候選需求類別, 通過諸如對該查詢序列所對應的搜索結果按類別進行統計分析或者對關于搜索結果的歷史點擊記錄按類別進行統計分析, 確定與所述查詢序列相對應的類別需求度, 如, “×× 影視明星” 查詢序列在視頻類的類別需求度為 0.3 ; 查詢序列在新聞類的類別需求度為 0.3 ; 查詢序列在背景介紹類的類別需求度為 0.1 ; 查詢序列在音樂類的類別需求度為 0.2 ; 以及查詢序列在圖片類的類別需求度為 0.1。
需求度確定:
用戶的查詢序列為 “×× 影視明星” , 將查詢序列在需求特征詞庫中進行匹配查詢,當在需求特征詞庫中匹配查詢到 ×× 影視明星屬于明星列表并且該明星列表對應的需求類別包括視頻、 新聞、 背景介紹、 音樂和圖片時,得到與查詢序列相對應的候選需求類別包括視頻、 新聞、 背景介紹、 音樂和圖片。結合該查詢序列相應的大量用戶的點擊統計分析, 如:統計分析結果中表明視頻類搜索結果、 新聞類搜索結果、 背景介紹類搜索結果、 音樂類搜索結果與圖片類搜索結果的用戶點擊頻次分別為 60000 次、 10000 次、 10000 次、 10000 次和10000 次, 則查詢序列對于視頻類搜索結果的類別需求度為 0.6, 而對于圖片類搜索結果的類別需求度為0.1。