第一、爬行和抓取網頁。
搜索引擎蜘蛛通過連接,訪問到網頁,抓取網頁HTML代碼,發送到數據庫儲存起來,等待下一步程序。常見的搜索引擎蜘蛛有:百度蜘蛛(Baiduspider )谷歌蜘蛛(Googlebot),soso蜘蛛(Sosospider ),雅虎蜘蛛(Yahoo!Slurp),微軟Bing蜘蛛(msnbot)搜狗蜘蛛(Sogou web robot )。蜘蛛根據鏈接爬行網站有兩種策略:一是深度優先,一是廣度優先。
第二、分析網頁。
分析網頁就是我們通常所說的預處理。這步程序蜘蛛會把抓取回來的HTML代碼,進行文字提取、去停止詞、消噪音、去重,然后對這些文字進行分詞、索引等處理,以備排名程序使用。這些過程都是非常復雜的,我們只需要了解它們是怎么分詞,怎么索引就行了。如果有興趣進一步研究的話,可以在網上找一些搜索引擎原理的資料或者購買介紹搜索引擎原理的書看。
第三、排名。
排名是搜索引擎程序的最后一步程序了。當搜索引擎把網頁進行一系列的分析過后,就把數據傳送到排名程序,當用戶搜索某個關鍵詞時候,排名程序就會調用經過分析網頁,檢索處理的數據庫數據,對關鍵詞進行匹配、計算相關性,然后生成排名頁面反饋給用戶。當然影響排名的因素還有網站的結構優化,內鏈優化,外鏈質量和數量等,包括地域性的因素。
以上三步是搜索引擎工作的基本原理,每一步程序都非常的復雜,我們只要大致了解一下,不需要進行深入的研究,最終影響排名的因素有很多很多,我們無法全部知道和掌握,只有在不斷的實踐過程中,主意細節,記錄和分析數據,才能更了解搜索引擎,才能進一步的提高自己網站的排名,獲得流量和知名度。
評論(0人參與,0條評論)
發布評論
最新評論