幾乎任何有抱負的通用搜索引擎都有一個共同的夢想:整合人類所有信息,并讓大家用最便捷的方式各取所需。
對此,百度說:“讓人們最便捷地獲取信息,找到所求”;谷歌說:“整合全球信息,使人人皆可訪問并從中受益”。
這兩者表達的實際上是同一個愿景。
然而,這注定是一項不可能完成的任務。據科學家估測,人類信息大概只有0.2%實現了web化,并且這個比例很可能在持續降低。更甚的是,即便在已經web化的信息中,搜索引擎的蜘蛛能抓取到的和不能抓取到的比例為1:500。
萬里長征的第一步即是對付“暗網”。所謂“暗網”,簡言之即為“搜索引擎抓取不到的網頁數據”。點亮“暗網”早已納入各大搜索引擎的日程之中,很明顯,這將是一場曠日持久的戰爭。
“暗網”之謎
1994年,學者JillEllsworth 提出了一個名為“Invisible Web”(不可見網絡,即暗網)的新詞匯,并對其下了定義:這些網站可能已經被合理地設計出來了,但是它們卻沒有被任何搜索引擎索引,以至于事實上沒有人能找到它們。
而從信息量來講,與現在能夠索引的數據相比,“暗網”更是要龐大得多。根據Bright Planet公司此前發布的一個名為《TheDeep WebSurfacing The Hidden Value》(深層次網絡,隱藏的價值)白皮書中提供的數據,“暗網”包含100億個不重復的表單,其包含的信息量是“非暗網”的40倍,有效高質內容總量至少是后者的1000倍到2000倍。更讓人無所適從的是,Bright Planet發現,無數網站越來越像孤立的系統,似乎沒有打算與別的網站共享信息,如此一來,“暗網”已經成為互聯網新信息增長的最大來源,也就是說,互聯網正在變得“越來越暗”。
當然,所謂“暗網”,并不是真正的“不可見”,對于知道如何訪問這些內容的人來說,它們無疑是可見的。
迎戰“暗網”
對于龐大的“暗網”,目前搜索業界通行的策略主要有兩種:其一,構建更有針對性的“暗網”爬蟲,以便獲取后臺數據庫;其二,與“暗網”網站合作,實現信息的對接和上浮。
對于第一種策略,它始終貫穿搜索引擎的發展過程。百度產品部相關人士對此表示,目前針對搜索引擎的升級和更新中,大部分與“暗網”問題有關,只不過對普通用戶來講,他們很難察覺。
第二種策略似乎更成效。不管是國外的谷歌、雅虎,還是國內的百度,都有針對性的計劃,并且用戶已經體驗到了它們帶來的變化。
巨頭的較勁
股民劉先生最近在百度搜索時無意中發現,當關鍵詞為股票代碼時,得到的結果第一項便是該股票的K線圖,還有當日的成交量等信息。而切換到谷歌,得到的結果如出一轍。他體驗到的這一技術,在百度被稱為“阿拉丁”,在谷歌則叫“onebox”。
除了股票,在百度搜索英文單詞、人民幣匯率、天氣預報、電視節目表等等,網民都會有意外收獲。這一點,網民的感觸要比在谷歌中深,一個典型的例子是,在百度和谷歌中分別輸入“天氣”,百度將直接根據用戶的IP判斷其所處位置,給出當地的天氣情況,而谷歌則在第一個結果中給出了一個搜索框,讓用戶進一步查詢。
顯然,在用戶體驗上,百度占了上風。這得益于其上線不久的“搜索開放平臺”,這一平臺是“阿拉丁”計劃的一部分。其運作邏輯是:百度開放API接口,各大網站提交已經結構化的數據,設定好關鍵詞和展示方式、位置,獲得百度審核后,當網民檢索設定的關鍵詞,則自動觸發這一機制,展現最直接的信息。
對比百度搜索開放平臺和谷歌onebox,兩者的最大區別就是與網站的互動,前者更為充分。換句話說,onebox更多是谷歌自己在使勁,而搜索開放平臺則是百度與站長一起在努力。據百度阿拉丁項目負責人透露,平臺上線兩個月以來,站長提交的資源數量超過3000個。
搜索的變革
在對付“暗網”的過程中,搜索引擎正在完成它的蛻變,不論是后臺還是前臺,這才是這場戰役的真正意義。“搜索引擎越來越聰明了,它能看穿我的心思。”90后網民小龔說。他是一個球迷,平時最喜歡看意甲,一天在百度搜索“意甲射手榜”,“居然結果中直接就是榜單,讓人意外。”
一位業內人士表示,搜索引擎試圖讓人們以最小的成本獲得最直接的信息,“哪怕是少一次鼠標點擊,也是巨大進步。”
有意思的是,隨著百度搜索開放平臺、谷歌onebox、雅虎Search Monkey等計劃的展開,搜索結果真正變得“亂糟糟”的——你總能看到網頁鏈接的結果中間夾雜著圖片、新聞、視頻,或者圖形、表格等信息,這種變革對網民的體驗大有裨益。
而評論人士則指出,這些計劃將搜索引擎從“只讀時代”帶入了“可寫時代”。或許未來,對于每一個網站,每一個用戶,都有資格改變搜索引擎。
評論(0人參與,0條評論)
發布評論
最新評論