<ul id="g60s4"><pre id="g60s4"></pre></ul>
<strong id="g60s4"><nav id="g60s4"></nav></strong>
<ul id="g60s4"></ul>
  • <tr id="g60s4"></tr>
  • 
    
  • 或者

    SEO如何處理采集內容

    作者:聚擎 瀏覽:51 發布時間:2017-07-01
    分享 評論 0

     有人說采集內容對搜索引擎友好性不高,不容易獲得排名,這個是肯定且必然的。

     
    seo內容采集
     

      對大多站點,上采集內容必定不如UGC、精心編輯過的內容來的效果好。但是,現在搜索引擎能獲取到的原創內容量已經不如之前多了,畢竟內容生產平臺已經轉移了,早就不集中在網站上了。另外幾個搜索引擎之間還相互抓,何況小站點呢。

      所以采集內容依舊是有效的,只不過對采集內容后加工的成本越來越高了。

      采集內容的后加工

      擔心采集內容效果差,或者容易被K,主要還是看怎么對內容后加工。打個比方:

      好比從沃爾瑪拿了一筐獼猴桃,原封不動的放到家樂福,頂多還只能是原來的售價,因為獼猴桃還是獼猴桃,商品不變。但把獼猴桃榨成汁(形態變化),加點水分瓶裝(粒度變化),再放到711里賣(平臺變化),售價可以翻幾倍(價值增益)

      為啥?

      因為形態變了,果汁是不同于水果的商品,且果汁更容易吸收

      因為平臺變了,711定價本身就比沃爾瑪家樂福要高一點

      因為粒度變了,一生二二生三三生萬物

      前三者的變化,導致價值的翻倍

      如果把“采集內容”比作“獼猴桃”,則對“采集內容”的后加工策略如下:

      形態

      組織內容方式無窮多,無論對同一個內容掰開了揉碎了分發到多處、還是多篇相關內容聚合到一處、還是其他方式,都可以讓搜索引擎更容易接受。

      平臺

      術業有專攻,從新浪抓一些垂直行業內容放到對應行業的垂直網站,肯定比放到新浪更合適。把專業化的內容放到專業的網站。

      粒度

      同樣是抓取的內容,粒度越細,在搜索引擎中的原創度越高。舉個極端的例子,星座股票起名八卦算命生辰八字風水算命qq圖片動態圖….此類型的站,哪個內容不是重復的?

      增益

      采集的目的在于補全內容上的漏洞,使同主題的內容比別人更加豐富飽滿充實,則產生了頁面內容價值上的增益。

      采集內容完整流程

      關于“采集內容處理”,從抓取到上線整個流程看,要搞定以下問題:

      采集內容從哪來?

      采集內容怎么抓?

      采集內容如何處理?

      采集內容從哪來?

      對于正經做站且做正經站的,定向采集、買專業數據更合適。

      定向采集,只抓幾個特定網站的特定范圍,與本站內容漏洞高度相關的。

      對于不正經做站的,可選擇的范圍就多很多了,沾點邊的內容都可以抓,講究量大,所以不需要限定某幾個站的抓取,有人叫泛采集

      設置幾個主題,直接抓各種大平臺的搜索結果便可。大平臺指什么?海量內容集中的地方:各類搜索引擎、各類門戶、今日頭條、微信微博、優酷土豆等等

      采集內容怎么抓?

      定向采集:

      略,平常怎么抓就怎么抓。

      泛采集:

      定向爬蟲受限于網頁模板,在此基礎上加上幾個內容分析算法來提取內容,改成通用爬蟲。

      好多瀏覽器插件,如印象筆記之類的,有好多類似“只看正文”的功能,點一下只顯示當前瀏覽網頁的正文信息,很多人已經把此類算法移植到python、php、java等編程語言上,搜索下便是。

      采集內容如何處理?

      兩個先后過程:

      對原始內容的處理

      對處理后內容進行組織

      對原始內容的處理

      百度專利說過,搜索引擎除了根據正文判斷內容相似性,也會根據html的dom節點的位置和順序來判斷,如果兩個網頁正文的html的結構相似,也可能當做重復內容來處理。

      所以,采集的內容不能直接拿來就上,要對源碼清洗一下。每個人方式各異,個人一般做如下處理:

      html清洗

      保留主要標簽:p、img

      刪除標簽中不重要的屬性

      a = re.sub(r'<(?!p|img|/p)[^<>]*?>','',content).strip()

      b = re.sub(r'<p[^>]*?>','<p>',a)

      newcontent = re.sub(r'alt="[^"]*?"','alt="%s"' % title,b).lower()

      刪除中文字數 < 100字的

      text = re.sub("[\s+\.\!\/_,$%^*(+\"\']+|[+——!,::。?、~@#¥%……&*()“”《》]+".decode("utf8"), "".decode("utf8"),newcontent)

      text2 = re.sub('<[^>]*?>','',text)

      words_number = len(text2)

      去除垃圾信息

      如“XXX網小編:XXX”、郵箱網址等。。。

      對處理后內容進行組織

    久久精品日韩一区国产二区| 久9久9精品免费观看| 免费久久精品国产片香蕉| 亚洲日韩精品国产一区二区三区| 久久精品九九亚洲精品| 久久国产精品国产精品| 国产人妖乱国产精品人妖| 久热这里只有精品99国产6| mm1313亚洲精品无码又大又粗| 日韩亚洲产在线观看| 中文字幕日韩一区二区三区不| 国产精品白浆无码流出| 精品无码久久久久久国产| 亚洲综合精品成人| 国内精品久久国产| 亚洲国产成人精品久久| 久久久精品国产sm调教网站| 麻豆亚洲AV永久无码精品久久| 无码国产精品一区二区免费模式| 最新精品露脸国产在线| 色噜噜亚洲精品中文字幕| 中日韩精品电影推荐网站| 老司机亚洲精品影视www| 国产在线精品福利大全| 97视频在线观看这里只有精品| 久久乐国产精品亚洲综合| 91久久精品91久久性色| 国产亚洲精品福利在线无卡一| 国产在线无码精品电影网| 国产午夜精品久久久久九九| 热久久这里是精品6免费观看 | 日韩精品无码成人专区| 在线观看国产日韩| 精品国产日韩亚洲一区在线| 精品99在线观看| 丁香六月婷婷精品免费观看 | 久久久精品人妻一区二区三区蜜桃| 99久久精品全部| 久久久久精品国产亚洲AV无码| 日本中文字幕在线精品| 久久久精品久久久久影院|