国产精品55夜色66夜色,9i9精品国产免费久久,国产成人精品男人免费

觸屏版
全國(guó)服務(wù)熱線：0571-87205688

價(jià)格查詢(xún) 批量查詢(xún) 一鍵轉(zhuǎn)入

查詢(xún)

或者

立即發(fā)布需求

昵稱(chēng)：數(shù)風(fēng)流人物

接單：535 關(guān)注TA

達(dá)標(biāo)率 0%

博文分類(lèi)

抓取網(wǎng)站的搜索引擎蜘蛛是不是越多越好

作者：數(shù)風(fēng)流人物 瀏覽：145次發(fā)布時(shí)間：2017-04-27

評(píng)論

贊0

做過(guò)SEO或站長(zhǎng)的都應(yīng)該知道，網(wǎng)站要想做排名就必須使網(wǎng)站文章先收錄，而網(wǎng)站內(nèi)容收錄由跟搜索引擎蜘蛛的來(lái)訪抓取有很大的關(guān)系。

搜索引擎蜘蛛，又被稱(chēng)為網(wǎng)頁(yè)爬蟲(chóng)，網(wǎng)絡(luò)機(jī)器人，在FOAF社區(qū)中間，也經(jīng)常被稱(chēng)為網(wǎng)頁(yè)追逐者，是一種按照一定的規(guī)則，自動(dòng)的抓取萬(wàn)維網(wǎng)信息的程序或者腳本。另外它還有一些不常使用的名字，如：螞蟻，自動(dòng)索引，模擬程序或者蠕蟲(chóng)。那么，對(duì)于一個(gè)網(wǎng)站來(lái)說(shuō)，是不是來(lái)網(wǎng)站爬行的搜索引擎蜘蛛越多越好呢？

一、搜索引擎蜘蛛抓取網(wǎng)頁(yè)的原理

關(guān)于搜索引擎獲得網(wǎng)頁(yè)的工具，是一款爬行程序(俗稱(chēng)蜘蛛)，蜘蛛程序每天都會(huì)爬行大量的網(wǎng)頁(yè)，并將一些新的網(wǎng)頁(yè)信息帶到服務(wù)器以便進(jìn)行網(wǎng)頁(yè)索引的建立。

可以說(shuō)，互聯(lián)網(wǎng)就是由一個(gè)個(gè)鏈接構(gòu)成的，蜘蛛程序順著這些鏈接爬行并發(fā)現(xiàn)網(wǎng)頁(yè)信息，蜘蛛程序爬行每一個(gè)頁(yè)面，當(dāng)這個(gè)頁(yè)面不再有新的鏈接信息的時(shí)候，它就返回，下次再到這個(gè)頁(yè)面的時(shí)候，再去爬行。

當(dāng)給它足夠的時(shí)間，他就會(huì)找到互聯(lián)網(wǎng)所有的網(wǎng)頁(yè)信息(至少是被鏈接的)，在爬行的時(shí)候，它還會(huì)不斷的向服務(wù)器提供信息，所以我們?cè)谶M(jìn)行網(wǎng)站日志分析的時(shí)候，如果發(fā)現(xiàn)某一個(gè)網(wǎng)頁(yè)被某個(gè)搜索引擎的蜘蛛程序程序爬行并成功抓取數(shù)據(jù)，那么，這個(gè)網(wǎng)頁(yè)就很有可能被索引。

所以，從SEO的角度來(lái)說(shuō)，提高網(wǎng)頁(yè)的索引數(shù)據(jù)(收錄量)對(duì)于一個(gè)網(wǎng)站的搜索引擎優(yōu)化(SEO)是非常有利的。

當(dāng)蜘蛛程序在爬行鏈接的過(guò)程中，它還會(huì)對(duì)爬行過(guò)的鏈接進(jìn)行處理，因?yàn)殒溄有枰d體(文字、圖片或其他信息)，發(fā)現(xiàn)鏈接載體并存儲(chǔ)鏈接數(shù)據(jù)。

所以這里我們要做的，就是努力增加蜘蛛爬行頁(yè)面的頻率(在以往的網(wǎng)站分析中經(jīng)常提到)，以保證我們網(wǎng)頁(yè)在搜索引擎數(shù)據(jù)庫(kù)中的索引是最新的。

比如蜘蛛程序今天訪問(wèn)了網(wǎng)站的兩個(gè)網(wǎng)頁(yè)并成功抓取，隔了兩個(gè)星期，它再來(lái)訪問(wèn)這兩個(gè)頁(yè)面的時(shí)候，這兩個(gè)網(wǎng)頁(yè)其中一個(gè)更新了，另一個(gè)確沒(méi)有，那么，蜘蛛程序可能會(huì)在一個(gè)星期內(nèi)再次回訪更新過(guò)的那個(gè)網(wǎng)頁(yè)，而在一個(gè)月后才去訪問(wèn)沒(méi)有更新的那個(gè)網(wǎng)頁(yè)，隨著時(shí)間的推移，蜘蛛程序會(huì)更加頻繁是爬行經(jīng)常更新的網(wǎng)頁(yè)，以達(dá)到更新服務(wù)器中的索引數(shù)據(jù)，向用戶(hù)提供最新的網(wǎng)頁(yè)信息。

二、搜索引擎蜘蛛是不是越多越好？

不論哪個(gè)搜索引擎的爬蟲(chóng)，來(lái)抓取你網(wǎng)站的頁(yè)面的時(shí)候，肯定在消耗你的網(wǎng)站資源，例如網(wǎng)站的連接數(shù)、網(wǎng)絡(luò)帶寬資源(空間流量)、服務(wù)器的負(fù)載、甚至還有盜鏈等，那是不是所有的搜索引擎蜘蛛都是有用呢？

另外，搜索引擎的爬蟲(chóng)來(lái)抓取你的頁(yè)面數(shù)據(jù)后，它也不一定收用數(shù)據(jù)，只代表它“到此一游”留下痕跡而已，據(jù)馬海祥了解有些搜索引擎只是過(guò)來(lái)找下它想要的資源，甚至還有很多是開(kāi)發(fā)人員的蜘蛛測(cè)試。

對(duì)于一個(gè)原創(chuàng)內(nèi)容豐富，URL結(jié)構(gòu)合理易于爬取的網(wǎng)站來(lái)說(shuō)，簡(jiǎn)直就是各種爬蟲(chóng)的盤(pán)中大餐，很多網(wǎng)站的訪問(wèn)流量構(gòu)成當(dāng)中，爬蟲(chóng)帶來(lái)的流量要遠(yuǎn)遠(yuǎn)超過(guò)真實(shí)用戶(hù)訪問(wèn)流量，甚至爬蟲(chóng)流量要高出真實(shí)流量一個(gè)數(shù)量級(jí)。

對(duì)于那些想提高網(wǎng)站有效利用率的網(wǎng)站，雖然設(shè)置了相當(dāng)嚴(yán)格的反爬蟲(chóng)策略，但是網(wǎng)站處理的動(dòng)態(tài)請(qǐng)求數(shù)量仍然是真實(shí)用戶(hù)訪問(wèn)流量的2倍。

可以肯定的說(shuō)，當(dāng)今互聯(lián)網(wǎng)的網(wǎng)絡(luò)流量有很大一部分的流量是爬蟲(chóng)帶來(lái)的，因此反搜索引擎爬蟲(chóng)是一個(gè)值得SEO長(zhǎng)期探索和解決的問(wèn)題。

所以，從SEO的角度來(lái)說(shuō)，搜索引擎蜘蛛來(lái)網(wǎng)站訪問(wèn)并非越多越好，并且還要合理的屏蔽無(wú)效的搜索引擎蜘蛛的抓取。

三、過(guò)多的搜索引擎爬蟲(chóng)對(duì)網(wǎng)站的影響

既然對(duì)于網(wǎng)站來(lái)說(shuō)，搜索引擎蜘蛛并非是越多越好，那么，這具體是因?yàn)槭裁丛驅(qū)е碌哪兀?/p>

1、浪費(fèi)帶寬資源

如果你的網(wǎng)站帶寬資源有限，而爬蟲(chóng)的量過(guò)多，導(dǎo)致正常用戶(hù)訪問(wèn)緩慢，原本虛擬主機(jī)主機(jī)的連接數(shù)受限，帶寬資源也是有限，這種情況搜索引擎爬蟲(chóng)受影響呈現(xiàn)更明顯。

2、過(guò)于頻繁的抓取會(huì)導(dǎo)致服務(wù)器報(bào)錯(cuò)

如果搜索引擎爬蟲(chóng)過(guò)于頻繁，會(huì)抓取掃描很多無(wú)效頁(yè)面，甚至抓頁(yè)面抓到服務(wù)器報(bào)502、500 、504等服務(wù)器內(nèi)部錯(cuò)誤了，蜘蛛爬蟲(chóng)還在不停使勁抓取。

3、與網(wǎng)站主題不相關(guān)的搜索引擎爬蟲(chóng)消耗資源

比如一淘網(wǎng)的抓取工具是一淘網(wǎng)蜘蛛(EtaoSpider)，目前是被各大電子商務(wù)購(gòu)物網(wǎng)站屏蔽的，拒絕一淘網(wǎng)抓取其商品信息及用戶(hù)產(chǎn)生的點(diǎn)評(píng)內(nèi)容。

被禁止的原因首先應(yīng)該是它們之間沒(méi)有合作互利的關(guān)系，還有就是EtaoSpider爬蟲(chóng)是一個(gè)抓取最瘋狂的蜘蛛，據(jù)馬海祥對(duì)一些電商網(wǎng)站的測(cè)試發(fā)現(xiàn)：一淘網(wǎng)蜘蛛(EtaoSpider)的一天爬行量比“百度蜘蛛（Baiduspider）”“360蜘蛛（360Spider）”“SOSO蜘蛛（Sosospider）”等主流蜘蛛爬蟲(chóng)多幾倍，并且是遠(yuǎn)遠(yuǎn)的多。

重點(diǎn)是EtaoSpider被抓取只會(huì)消耗你的網(wǎng)站資源，它不會(huì)給你帶來(lái)訪問(wèn)量，或者其它對(duì)你有利用的。

4、無(wú)效的測(cè)試抓取

一些搜索引擎開(kāi)發(fā)程序員，它們寫(xiě)的爬蟲(chóng)程序在測(cè)試爬行。

5、robots.txt文件也并非是萬(wàn)能

肯定有很多人認(rèn)為，在robots.txt設(shè)置屏蔽搜索引擎爬蟲(chóng)即可，或者允許某些特定的搜索引擎爬蟲(chóng)，能達(dá)到你預(yù)想效果。

正規(guī)搜索引擎會(huì)遵守規(guī)則，不過(guò)不會(huì)及時(shí)生效，但是據(jù)我對(duì)馬海祥博客的測(cè)試發(fā)現(xiàn)：實(shí)際上某些蜘蛛往往不是這樣的，先掃描抓取你的頁(yè)面，無(wú)視你的robots.txt，也可能它抓取后不一定留用，或者它只是統(tǒng)計(jì)信息，收集互聯(lián)網(wǎng)行業(yè)趨勢(shì)分析統(tǒng)計(jì)。

6、不是搜索引擎蜘蛛，但具有蜘蛛的特性

例如采集軟件，采集程序，網(wǎng)絡(luò)掃描e-mail地址的工具，各式各樣的SEO分析統(tǒng)計(jì)工具，千奇百怪的網(wǎng)站漏洞掃描工具等等，這些抓取對(duì)網(wǎng)站沒(méi)有任何好處！

四、如何解決無(wú)效搜索引擎蜘蛛取的問(wèn)題

各種搜索引擎的蜘蛛爬蟲(chóng)會(huì)不斷地訪問(wèn)抓取我們站點(diǎn)的內(nèi)容，也會(huì)消耗站點(diǎn)的一定流量，有時(shí)候就需要屏蔽某些蜘蛛訪問(wèn)我們的站點(diǎn)。那么接下來(lái)，馬海祥就根據(jù)自己的經(jīng)驗(yàn)跟大家分享4種解決無(wú)效搜索引擎蜘蛛抓取的方法：

1、只運(yùn)行常用的搜索引擎蜘蛛抓取

依據(jù)空間流量實(shí)際情況，就保留幾個(gè)常用的，屏蔽掉其它蜘蛛以節(jié)省流量。

2、通過(guò)服務(wù)器防火墻來(lái)屏蔽ip

從服務(wù)器防火墻iptable直接屏蔽蜘蛛IP段、詳細(xì)的IP，這是最直接、有效的屏蔽方法。

3、WWW服務(wù)器層面做限制

例如Nginx，Squid，Lighttpd，直接通過(guò)“http_user_agent”屏蔽搜索引擎爬蟲(chóng)。

4、最后robots.txt文件做限制

搜索引擎國(guó)際規(guī)則還是要遵循規(guī)則的。

五、各大搜索引擎蜘蛛的名稱(chēng)

為了使大家找到適合自己網(wǎng)站的搜索引擎蜘蛛，馬海祥也特意整理了一份最新的各大搜索引擎蜘蛛名稱(chēng)(大家要注意下寫(xiě)法的不同點(diǎn)，特別是大小寫(xiě))：

1、百度蜘蛛：Baiduspider

網(wǎng)上的資料百度蜘蛛名稱(chēng)有BaiduSpider、baiduspider等，那是舊黃歷了。百度蜘蛛最新名稱(chēng)為Baiduspider，我通過(guò)對(duì)馬海祥博客日志的檢查還發(fā)現(xiàn)了Baiduspider-image這個(gè)百度旗下蜘蛛，是抓取圖片的蜘蛛。

常見(jiàn)百度旗下同類(lèi)型蜘蛛還有下面這些：Baiduspider-mobile(抓取wap)、Baiduspider-image(抓取圖片)、Baiduspider-video(抓取視頻)、Baiduspider-news(抓取新聞)。

2、谷歌蜘蛛：Googlebot

這個(gè)爭(zhēng)議較少，但也有說(shuō)是GoogleBot的，谷歌蜘蛛最新名稱(chēng)為“compatible; Googlebot/2.1;”，不過(guò)，我還在馬海祥博客的日志中發(fā)現(xiàn)了Googlebot-Mobile，看名字是抓取wap內(nèi)容的。

3、360蜘蛛：360Spider

它是一個(gè)很“勤奮抓爬”的蜘蛛。

4、SOSO蜘蛛：Sosospider

5、雅虎蜘蛛：“Yahoo! Slurp China”或者Yahoo!

6、有道蜘蛛：YoudaoBot，YodaoBot

7、搜狗蜘蛛：Sogou News Spider

另外，馬海祥還發(fā)現(xiàn)搜狗蜘蛛還包括以下這些：Sogou web spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou News Spider、Sogou Orion spider。

8、MSN蜘蛛：msnbot，msnbot-media

9、必應(yīng)蜘蛛：bingbot，線上(compatible; bingbot/2.0;)

10、一搜蜘蛛：YisouSpider

11、Alexa蜘蛛：ia_archiver

12、宜搜蜘蛛：EasouSpider

13、即刻蜘蛛：JikeSpider

14、一淘網(wǎng)蜘蛛：EtaoSpider

根據(jù)上述蜘蛛中選擇幾個(gè)常用的允許抓取，其余的都可以通過(guò)robots屏蔽抓取，如果你的空間流量還足夠使用的話，那就不用做屏蔽了，等流量緊張了就保留幾個(gè)常用的屏蔽掉其它蜘蛛以節(jié)省流量。

至于那些蜘蛛抓取對(duì)網(wǎng)站能帶來(lái)有利用的價(jià)值，網(wǎng)站的管理者應(yīng)該是最清楚的。

另外，馬海祥還發(fā)現(xiàn)了YandexBot、AhrefsBot和ezooms.bot這些蜘蛛，據(jù)說(shuō)這些蜘蛛國(guó)外的，對(duì)中文網(wǎng)站用處很小。

其實(shí)對(duì)于我們站長(zhǎng)來(lái)說(shuō)，有效并且常用的搜索引擎就那么幾個(gè)，只要在robots.txt文件里把常用的幾個(gè)搜索引擎蜘蛛允許放行就好了，其它的爬蟲(chóng)統(tǒng)統(tǒng)通過(guò)通配符(*)禁止掉，或單獨(dú)屏蔽某些蜘蛛。

上一篇：圖文網(wǎng)站:圖片搜索排名的SEO優(yōu)化方法技巧 下一篇：百度人工詞:做SEO必須要知道的特殊關(guān)鍵詞

評(píng)論(0人參與，0條評(píng)論)

發(fā)布評(píng)論

博文分類(lèi)

抓取網(wǎng)站的搜索引擎蜘蛛是不是越多越好

猜你喜歡

評(píng)論(0人參與，0條評(píng)論)

最新評(píng)論