<ul id="g60s4"><pre id="g60s4"></pre></ul>
<strong id="g60s4"><nav id="g60s4"></nav></strong>
<ul id="g60s4"></ul>
  • <tr id="g60s4"></tr>
  • 
    
  • 或者

    淺談屏蔽搜索引擎爬蟲(chóng)(蜘蛛)抓取/索引/收錄網(wǎng)頁(yè)的幾種思路

    作者:小仙女 瀏覽:120 發(fā)布時(shí)間:2017-09-08
    分享 評(píng)論 0

    網(wǎng)站建設(shè)好了,當(dāng)然是希望網(wǎng)頁(yè)被搜索引擎收錄的越多越好,但有時(shí)候我們也會(huì)碰到網(wǎng)站不需要被搜索引擎收錄的情況。


    比如,你要啟用一個(gè)新的域名做鏡像網(wǎng)站,主要用于PPC 的推廣,這個(gè)時(shí)候就要想辦法屏蔽搜索引擎蜘蛛抓取和索引我們鏡像網(wǎng)站的所有網(wǎng)頁(yè)。因?yàn)槿绻R像網(wǎng)站也被搜索引擎收錄的話,很有可能會(huì)影響官網(wǎng)在搜索引擎的權(quán)重,這肯定是我們不想看到的結(jié)果。


    以下列舉了屏蔽主流搜索引擎爬蟲(chóng)(蜘蛛)抓取/索引/收錄網(wǎng)頁(yè)的幾種思路。注意:是整站屏蔽,而且是盡可能的屏蔽掉所有主流搜索引擎的爬蟲(chóng)(蜘蛛)。


    1、通過(guò) robots.txt 文件屏蔽


    可以說(shuō) robots.txt 文件是最重要的一種渠道(能和搜索引擎建立直接對(duì)話)。我通過(guò)分析我自己博客的服務(wù)器日志文件,給出以下建議(同時(shí)歡迎網(wǎng)友補(bǔ)充):


    User-agent: Baiduspider


    Disallow: /


    User-agent: Googlebot


    Disallow: /


    User-agent: Googlebot-Mobile


    Disallow: /


    User-agent: Googlebot-Image


    Disallow:/


    User-agent: Mediapartners-Google


    Disallow: /


    User-agent: Adsbot-Google


    Disallow: /


    User-agent:Feedfetcher-Google


    Disallow: /


    User-agent: Yahoo! Slurp


    Disallow: /


    User-agent: Yahoo! Slurp China


    Disallow: /


    User-agent: Yahoo!-AdCrawler


    Disallow: /


    User-agent: YoudaoBot


    Disallow: /


    User-agent: Sosospider


    Disallow: /


    User-agent: Sogou spider


    Disallow: /


    User-agent: Sogou web spider


    Disallow: /


    User-agent: MSNBot


    Disallow: /


    User-agent: ia_archiver


    Disallow: /


    User-agent: Tomato Bot


    Disallow: /


    User-agent: *


    Disallow: /


    2、通過(guò) meta tag 屏蔽


    在所有的網(wǎng)頁(yè)頭部文件添加,添加如下語(yǔ)句:


    <meta name="robots" content="noindex, nofollow">


    3、通過(guò)服務(wù)器(如:Linux/nginx )配置文件設(shè)置


    直接過(guò)濾 spider/robots 的IP 段。


    小注:第1招和第2招只對(duì)“君子”有效,防止“小人”要用到第3招(“君子”和“小人”分別泛指指遵守與不遵守 robots.txt 協(xié)議的 spider/robots),所以網(wǎng)站上線之后要不斷跟蹤分析日志,篩選出這些 badbot 的ip,然后屏蔽之。


    這里有一個(gè)badbot ip 數(shù)據(jù)庫(kù):http://www.spam-whackers.com/bad.bots.htm


    4、通過(guò)搜索引擎提供的站長(zhǎng)工具,刪除網(wǎng)頁(yè)快照


    比如,有的時(shí)候百度不嚴(yán)格遵守 robots.txt 協(xié)議,可以通過(guò)百度提供的“網(wǎng)頁(yè)投訴”入口刪除網(wǎng)頁(yè)快照。百度網(wǎng)頁(yè)投訴中心:http://tousu.baidu.com/webmaster/add


    大概3天左右的時(shí)間過(guò)去,這個(gè)網(wǎng)頁(yè)的百度快照也被刪除,說(shuō)明此種方法也能起效,當(dāng)然這是不得而為之,屬于亡羊補(bǔ)牢。


    5、補(bǔ)充更新


    可以通過(guò)檢測(cè) HTTP_USER_AGENT 是否為爬蟲(chóng)/蜘蛛訪問(wèn),然后直接返回403 狀態(tài)碼屏蔽之。比如:由于api 權(quán)限與微博信息隱私保護(hù)原因,Xweibo 2.0 版本后禁止搜索引擎收錄。


    精品国产日韩久久亚洲| 精品欧洲AV无码一区二区男男| 亚洲欧美日韩国产成人| 精品国产这么小也不放过| 亚洲精品国产专区91在线| 亚洲av永久无码精品表情包| 国产精品永久免费视频| 亚洲日韩精品无码AV海量| 国产精品香蕉在线观看不卡| 中文人妻熟妇乱又伦精品 | 91精品国产自产在线老师啪| 国产精品视频色拍拍| 91麻豆精品视频| 精品久久久久久久久久中文字幕| 日韩AV片无码一区二区不卡| 国产精品天天在线| 国产精品无码一区二区在线观| 国产人成精品香港三级在| 3d精品重口littleballerina| 久久久久亚洲精品美女| 久久国产精品国产自线拍免费| 成人区精品一区二区不卡| 国产福利电影一区二区三区,亚洲国模精品一区| 自拍日韩亚洲一区在线| 无码日韩精品一区二区三区免费| 国产精品二区三区免费播放心| 99久久婷婷国产综合精品| 亚洲精品日韩一区二区小说| AAA级久久久精品无码片| 51精品国产人成在线观看| 78成人精品电影在线播放| 蜜臀98精品国产免费观看| 亚洲熟妇无码久久精品| 老子午夜精品无码| 亚洲欧洲国产经精品香蕉网| 91精品久久久久久久99蜜桃| 99精品众筹模特自拍视频| 99re6在线视频精品免费下载| 久久影院综合精品| 久久精品a亚洲国产v高清不卡| 精品无码AV一区二区三区不卡 |