<ul id="g60s4"><pre id="g60s4"></pre></ul>
<strong id="g60s4"><nav id="g60s4"></nav></strong>
<ul id="g60s4"></ul>
  • <tr id="g60s4"></tr>
  • 
    
  • 或者

    Baiduspider抓取建庫篇——VIP大講堂(上海站)QA集錦

    作者:月光邊境 瀏覽:109 發(fā)布時(shí)間:2018-05-22
    分享 評論 0

    首先,小編要對各位站長朋友說聲抱歉,VIP大講堂上海站已經(jīng)過去N久,QA內(nèi)容今天才發(fā)布出來。各位站長參加VIP大講堂,除了聆聽官方聲音外,更重要的是可以與百度專家進(jìn)行面對面的溝通。VIP大講堂上海站請出了百度spider專家孫權(quán),這是他第一次走出來與站長進(jìn)行培訓(xùn)交流,課程中抖出干貨無數(shù),各位無法參與現(xiàn)場培訓(xùn)的站長除了申請觀看培訓(xùn)現(xiàn)場視頻外,還可以通過QA記錄看看自己心中的疑問是否已被解答。

      由于現(xiàn)場QA環(huán)節(jié)火爆熱烈內(nèi)容超多,故本次僅放出spider抓取建庫部分,其它內(nèi)容請靜待下期。

      問:為什么收錄量像坐過山車一樣的,還有為什么有些網(wǎng)頁今天在明天就沒了?

      答:百度會周期建庫,且每個庫的收錄量是恒定的,你老是有新增,肯定會再從庫里淘汰一些,反正總是保持那個庫是滿的。在建庫的過程中,你會感覺有波動。具體的怎么篩,哪個頁面會留下哪個頁面會淘汰,這個策略是有很多的,他隨著時(shí)間的變化,收錄的標(biāo)準(zhǔn)策略也是在發(fā)生微調(diào)。

      問:我們站點(diǎn)使用CDN加速會不會比較容易造成蜘蛛無法抓取?因?yàn)橛袝r(shí)候修改掉他綁定的什么東西。

      答:如果要修改掉一定要通知到上一級,現(xiàn)在不存在這個問題,現(xiàn)在你如果修改掉也可以解析掉,之前可能會存在這個問題。

      問:你們百度自己也有一個CDN加速,對抓錄排名有沒有影響?

      答:在使用CDN加速這個問題上,我們對所有站點(diǎn)一視同仁。但我建議你使用技術(shù)能力強(qiáng)的CDN服務(wù)商,保證站點(diǎn)的穩(wěn)定和速度,百度會更喜歡。

      問:剛才您說IP上的站點(diǎn)數(shù)不能太多,那CDN這種情況怎么辦?

      答:CDN的情況另說,如果我們識別出來是CDN的話不會受站點(diǎn)數(shù)量的影響,如果你是提供獨(dú)立IP的話會有這樣一些問題。

      問:還是IP上站點(diǎn)數(shù)量的問題,如果是主域跟二級域名呢?也受數(shù)量限制?

      答:我說的是獨(dú)立域名。當(dāng)然質(zhì)量比較好的二級域名也可以認(rèn)為是獨(dú)立域名

      問:多個域名,他有相同的一些內(nèi)容,怎么建庫?

      答:如果是多域名在同一個主域下面有相同內(nèi)容的話,不可能所有都建庫,而且被建庫的那個可能不是你希望的那個,所以盡量不要有相同的內(nèi)容。

      問:剛才講的IP如果是多域名的話,好幾百個IP域名,現(xiàn)在我們也用了CDN,按照剛才的說法,單個IP最多抓多少?1000萬是說對站點(diǎn)還是對IP?

      答:對IP,但1000萬是我舉例,不是實(shí)際的數(shù)據(jù),這個數(shù)據(jù)不會分享出來的

      問:現(xiàn)在我的網(wǎng)站被很多蜘蛛爬,我想只讓百度蜘蛛爬,百度蜘蛛IP多少?能設(shè)白名單么?

      答:百度蜘蛛IP是不斷變的,現(xiàn)在網(wǎng)上的確有一些白名單的說法,暫時(shí)是有效的,但不保證今后不會變,所以建議站點(diǎn)還是通過ua進(jìn)行判斷,我們百度站長平臺上有相關(guān)的文章,你可以找一下。

      問:如果我寫robots只想禁掉動態(tài)鏈接的話,會不會影響動態(tài)參數(shù)前面正常鏈接的抓取?

      答:不會的,你原來的頁面還在,肯定會抓。

      問:比如我們一個域名www.abcde.com,我們想把帶?號的url全部禁掉,首頁我們不要禁掉,怎么弄?

      答:?前面有個*,后面再有個*就可以了。

      問:我想了解,如果我現(xiàn)在收錄有5萬,大概多長時(shí)間才能把我原來收錄5萬重新抓取一遍?

      答:不同站點(diǎn)不好說,一個是你站點(diǎn)做的很好,知名度很響更新很快質(zhì)量很好就會快;如果你的站點(diǎn)默默無聞,貢獻(xiàn)很少,可能就會很慢。

      (接上個問題)

      問:就是差不多的情況,大概。

      答:這個沒有人能估出來。

      問:百度站長平臺上有數(shù)據(jù)提交的工具,我們實(shí)時(shí)提交,你們也會實(shí)時(shí)抓取嗎?

      答:不會,他會有一層判斷。現(xiàn)在只是通知你提交成功,后面什么時(shí)候抓,什么時(shí)候建庫沒有,我們正在研究要不要把這個分享出來。

      問:我網(wǎng)站有一些列表頁,都沒有鏈接,擔(dān)心百度抓不到

      答:現(xiàn)在百度站長平臺的站內(nèi)搜索工具有一個綠色收錄通道,在那里提交種子頁,我們就知道的。

      (接上個問題)

      問:提交種子頁面必須要用站搜?

      答:是的。

      問:如果說頁面里url特別多的話,蜘蛛會不會有選擇性的進(jìn)行抓取?

      答:不會,他都會一個不漏給你提出來,但會把JS、CSS這樣的鏈接給過濾掉。但請注意,全部抓取過來之后會進(jìn)行篩選,并不是所有都會建庫。

      問:現(xiàn)在很多網(wǎng)站都有自己的站內(nèi)搜索,都會產(chǎn)生站內(nèi)搜索結(jié)果頁,百度不喜歡搜索結(jié)果頁的話,我們用這個會不會對我們有影響?只是不喜歡還是對我們網(wǎng)站會有懲罰

      答:蜘蛛會去抓,抓完之后重要是提取里面的鏈接。如果只有一兩條這樣的頁面質(zhì)量不好問題不大,如果整體質(zhì)量較差,有可能受到懲罰。

      問:新出的時(shí)效性文章當(dāng)時(shí)沒有被收錄,后期是否還會被收錄?

      答:會

      問:站點(diǎn)每天最高爬蟲多少次?

      答:這個其實(shí)說不好,有的站點(diǎn)我們一天會抓一兩千萬,有的站點(diǎn)只抓幾個、幾十個,看你的規(guī)模和質(zhì)量,而且這個抓取量也是會根據(jù)網(wǎng)站的情況進(jìn)行調(diào)整的。

      作者:百度站長平臺


    国产精品臀控福利在线观看| 国产精品无码无卡无需播放器| 国产91久久精品一区二区| 青青青青久久精品国产h| 国产天天综合永久精品日| 日韩在线精品一二三区| 国产精品美女久久久久浪潮AV| 98精品国产高清在线看入口| 国产国产精品人在线视| 综合人妻久久一区二区精品| 国产网红主播无码精品| 无码AⅤ精品一区二区三区| 日韩精品无码专区免费播放| 国产suv精品一区二区6| 国产精品久久久久9999赢消| 国内精品国语自产拍在线观看91| 精品影片在线观看的网站| 久久福利资源国产精品999| 99re最新这里只有精品| 精品久久8x国产免费观看| 久9视频这里只有精品| 亚洲精品国产专区91在线| 91精品视频在线| 亚洲精品第一国产综合野| 亚洲精品午夜久久久伊人| 久久精品午夜一区二区福利| 久久99国产综合精品| 亚洲福利一区二区精品秒拍| 91精品久久国产青草| 91精品国产高清久久久久久91| 91亚洲精品第一综合不卡播放| 97精品视频在线观看| 精品久久久久久久久午夜福利| 国产99re在线观看只有精品| 色综合久久综精品| 亚洲中文字幕久久精品蜜桃| 国产精品资源在线观看网站| 亚洲国产精品日韩av不卡在线| 国精品产区WNW2544| 精品国产av一二三四区| 国产成人精品999在线|