觸屏版
全國服務(wù)熱線:0571-87205688
登錄
注冊
客戶中心
關(guān)注云客
自從百度站長平臺"抓取診斷"工具上線以來,很多站長朋友都把此工具當(dāng)做引蜘蛛的手段,可是筆者親測了下,發(fā)現(xiàn)"抓取診斷"工具存在各種各樣的問題,所以 我們不能過于依賴,而應(yīng)選擇性的應(yīng)用.下面我們就來探討下百度"抓取診斷"工具具體有什么作用以及需要改進(jìn)的地方.
首先我們來看看百度官方的解釋:
一、什么是抓取工具?
1)抓取診斷工具,可以讓站長從百度蜘蛛的視角查看抓取內(nèi)容,自助診斷百度蜘蛛看到的內(nèi)容,和預(yù)期是否一致.
2)每個站點(diǎn)每月可使用300次,抓取結(jié)果只展現(xiàn)百度蜘蛛可見的前200KB內(nèi)容.
二、抓取診斷工具能做什么?
1)診斷抓取內(nèi)容是否符合預(yù)期,譬如很多商品詳情頁面,價格信息是通過JavaScript輸出的,對百度蜘蛛不友好,價格信息較難在搜索中應(yīng)用.問題修正后,可用診斷工具再次抓取檢驗(yàn).
2)診斷網(wǎng)頁是否被加了黒鏈、隱藏文本.網(wǎng)站如果被黑,可能被加上隱藏的鏈接,這些鏈可能只在百度抓取時才出現(xiàn),需要用此抓取工具診斷.
3)檢查網(wǎng)站與百度的連接是否暢通,若是IP信息不一致,可以報錯通知百度更新IP.
4)如果網(wǎng)站有新頁面或頁面內(nèi)容有更新,百度蜘蛛較長時間沒來訪問,可以通過此工具邀請它快速來抓取.
筆者測試了一下,有些網(wǎng)站可以抓取成功,如下圖所示,這里面包含了很多信息,同時還能很好的顯示網(wǎng)頁的源代碼,可以為站長提供一定的幫助.
可是對于雙線主機(jī)和做了別名解析的非固定IP主機(jī),總是出現(xiàn)抓取失敗或者抓取中的現(xiàn)象,偶爾也能抓取成功,如圖所示:
這是否意味著,百度百度蜘蛛無法抓取到我們的網(wǎng)頁呢?答案是否定的,筆者剛測試的這個抓取失敗的網(wǎng)站,當(dāng)天所發(fā)文章全部都是秒收,證明百度蜘蛛能很好的抓取網(wǎng)頁,單身"抓取診斷"工具卻出差,這說明這項(xiàng)技術(shù)還不成熟,所以我們只能參考,不能過于依賴.
還有一點(diǎn)需要注意的是,抓取同一個頁面以后,百度會有很長時間的緩存,如下圖所示.筆者上午11點(diǎn)09分抓取了一個頁面,并在頁面里掛上"黑鏈","抓取 工具"抓到的源代碼里有這些"黑鏈"代碼,可是筆者把這些"黑鏈"全都去了以后,晚上19點(diǎn)13分又抓取了一次,發(fā)現(xiàn)抓取到的頁面還是上午11點(diǎn)09分抓 的頁面,中間相隔了8個小時.
除此以外,抓取工具對于網(wǎng)站IP地址的判定經(jīng)常會出錯,一旦IP地址判定錯誤,就會出現(xiàn)抓取失敗的現(xiàn)象.但是這并不代表蜘蛛不能訪問我們的網(wǎng)站,其實(shí)蜘蛛是蜘蛛,抓取工具是一種工具,大家千萬不要混為一談.
當(dāng)然了,任何工具的新上線,都存在這樣那樣的問題,我們只要選擇對我們有利的地方去應(yīng)用就行了,而不應(yīng)過于依賴所有的功能.同時也希望度娘能盡快加以改 進(jìn),把有問題的地方都處理好,給廣大站長朋友一個有用的工具.
本文由安徽美食網(wǎng)( )撰寫,轉(zhuǎn)載請注明出處.
評論(0人參與,0條評論)
發(fā)布評論
最新評論