百度訴360違反Robots協(xié)議索賠億元的背后:一場數(shù)據(jù)爭奪戰(zhàn)
21ic通信網(wǎng)訊,攪局者360面臨的巨額訴訟官司即將開庭。百度起訴奇虎360違反“Robots協(xié)議”(又稱機器人協(xié)議或爬蟲協(xié)議)抓取、復(fù)制其網(wǎng)站內(nèi)容的不正當(dāng)競爭行為,并索賠1億元人民幣。這個官司在今年2月便已立案,或許由于Robots協(xié)議太棘手,等了大半年才開庭。
Robots抓取案根源是百度數(shù)據(jù)優(yōu)勢
筆者在今年1月6日便率先發(fā)現(xiàn)360內(nèi)測360百科,大量詞條從界面風(fēng)格、到詞條屬性、到擴展閱讀幾乎保持一致。當(dāng)時我推測360搜索在2013年的發(fā)展方向或?qū)⑹牵涸诋a(chǎn)品線上,360搜索完全走百度的模式——從新聞、網(wǎng)頁、問答、地圖、音樂到視頻等(軟件和應(yīng)用搜索是360特有的)。不過奇虎360后續(xù)陸續(xù)推出了“雷電手機搜索”“軟件搜索”“良醫(yī)搜索”以及“購物搜索”,實現(xiàn)與百度產(chǎn)品的差異化。
一方面綜合搜索百度有先發(fā)優(yōu)勢,有著十多年的數(shù)據(jù)和技術(shù)積累,360想在這方面趕超幾無可能;另一方面360爬取百度數(shù)據(jù)的做法,遭到后者多重打壓:既有懸在頭上的訴訟,也有重定向等技術(shù)手段。在360搜索結(jié)果點擊百度知道、百科等頁面,將被重定向,二次點擊使得用戶無法享受完整的搜索體驗。
細(xì)心觀察Google、360等搜索引擎會發(fā)現(xiàn),首頁結(jié)果出現(xiàn)百度知道、百科和貼吧內(nèi)容的幾率非常大,搜搜問問、愛問知識人和奇虎問答則是補充。如果搜索引擎沒有百度的數(shù)據(jù),用戶找到想要的結(jié)果的幾率會降低很多。
百度在2004年開始每年推出一個重量級產(chǎn)品:貼吧、知道和百科?,F(xiàn)在百度的數(shù)據(jù)優(yōu)勢顯示了當(dāng)初UGC策略的英明之處。這些用戶創(chuàng)造的數(shù)據(jù)已經(jīng)成為百度的核心資產(chǎn),同時百度官方運營人員也功不可沒,而360直接將百度辛苦積攢的數(shù)據(jù)拿去使用,百度自然難以接受。數(shù)據(jù)是否豐富將很大程度決定搜索體驗。
Robots協(xié)議,網(wǎng)站維護自身利益的工具?
Robots協(xié)議是網(wǎng)站站長與搜索引擎之間共同討論后形成、通過Robots.txt落地。網(wǎng)站站長用它決定對搜索引擎的開放程度,引導(dǎo)爬蟲如何更有效地爬取自己。現(xiàn)被廣泛采用。Google、百度等搜索引擎均嚴(yán)格遵守。通常網(wǎng)站可以在服務(wù)器根目錄下的“Robots.txt”中指明哪些內(nèi)容可以被搜索引擎抓取,哪些不可以;也可以指明對那個搜索引擎開放,或者對哪個不開放。限制某個搜索引擎,Robots初衷是限制“BadRob”,即壞爬蟲。所謂壞,是指存在安全或隱私問題,抑或太高頻率爬取導(dǎo)致服務(wù)器壓力。
事實上,Robots最初是用來約束搜索引擎的。搜索引擎夢想是獲取所有數(shù)據(jù),Robots限制了這一點。Robots也可以設(shè)置站點地圖、屏蔽死鏈接以及減輕服務(wù)器壓力不讓爬蟲爬取大文件。但整體而言搜索引擎是不歡迎Robots的,據(jù)某站長介紹,如何要想從搜索引擎獲得更多流量,最好別用Robots文件。
不過百度是一家搜索公司,也是一家內(nèi)容網(wǎng)站——當(dāng)被Google、360等搜索引擎爬取時,李彥宏的角色就是網(wǎng)站站長。Robots協(xié)議對其也有保護作用。對360啟用Robots限制很大程度是為了維護自身數(shù)據(jù)優(yōu)勢,防范競爭。Robots協(xié)議現(xiàn)在已逐步成為網(wǎng)站主維護利益的工具。
2008年淘寶屏蔽了Google、百度等搜索引擎也是利用Robots協(xié)議,理由是欺詐風(fēng)險,今年淘寶屏蔽微信也是類似的理由。京東商城也通過Robots協(xié)議屏蔽了阿里旗下的購物搜索引擎一淘:因為一淘未經(jīng)允許抓取京東商品評價,而這些評價花費了京東上億的積分激勵資源。屏蔽一淘得到蘇寧易購的效仿。
360對百度不滿意之處在于:百度的Robots采用了允許部分網(wǎng)站的方式,360被排除在外。其他搜索引擎例如搜狗就可以搜索百度內(nèi)容。據(jù)接近百度內(nèi)部人士介紹,搜索引擎要加入百度robots協(xié)議的白名單,一般需要與之簽署一份書面協(xié)議。盡管360前幾天與百度打了一場足球賽,但暫時應(yīng)該還難以與之簽署書面協(xié)議。
顯而易見,百度屏蔽360、淘寶屏蔽百度、京東和蘇寧易購屏蔽一淘,均是利用Robots協(xié)議來應(yīng)對競爭對手,而不是因為對方的爬蟲是“壞爬蟲”。
用戶創(chuàng)造內(nèi)容的版權(quán)歸屬成為焦點
Robots的效力與“口頭約定”差不多。但進入搜索引擎行業(yè)的均會遵循這個游戲規(guī)則,這得靠自律。但是違反協(xié)議本身是否被法律制裁,現(xiàn)在難以判斷。如果爭論焦點圍繞著作權(quán),屆時還要看360的行為是否符合避風(fēng)港原則。
360認(rèn)為百度不應(yīng)該將Robots協(xié)議這么用,他們抓取的數(shù)據(jù)是用戶創(chuàng)造的,百度不應(yīng)該屏蔽。并且百度不應(yīng)該只對自己屏蔽。就算360覺得委屈,更合適的方式是推動Robots協(xié)議修訂,并且說服業(yè)界接受,這很難。但現(xiàn)在360采用不遵守協(xié)議直接爬取的方法,有點“以暴制暴”的感覺:“規(guī)則不公平,抑或有人濫用來對付我,我就不遵守這個規(guī)則。”
用戶創(chuàng)造內(nèi)容是否可以不經(jīng)過網(wǎng)站允許被抓取呢?百度用戶創(chuàng)造的內(nèi)容并沒有明確的所有權(quán)歸屬。國內(nèi)只有知乎等少數(shù)UGC社區(qū)有CC協(xié)議(知識共享),百度內(nèi)容究竟是屬于用戶還是百度,UGC社區(qū)需要更加明確的版權(quán)協(xié)議。但360并不能因此就要求百度必須開放數(shù)據(jù)。況且這些數(shù)據(jù)的產(chǎn)生百度確實有所付出,例如運營、技術(shù)、軟硬件資源等。
那么國外有無先例呢?在12年前,美國加州北部的聯(lián)邦地方法院,eBay起訴Bidder's Edg案中,Bidder‘Edg違反Robots協(xié)議抓取eBay數(shù)據(jù),BE敗訴。但是在2011年4月微軟向歐盟起訴Google,因為Google限制競爭對手的搜索引擎正常訪問YouTube,微軟卻獲勝了。
難以預(yù)測本次百度起訴360案結(jié)局怎么樣,因為可以借鑒的先例也給出了不同的答案。不過本案結(jié)局勢必會給接下來國內(nèi)的互聯(lián)網(wǎng)內(nèi)容歸屬、非法律范疇協(xié)議糾紛值提供重大的借鑒意義。
本案也將很大程度影響360搜索此后的發(fā)展方向。2008年奇虎便推出了問答,但與百度知道還有差距。接下來360很可能會收購知乎這類內(nèi)容社區(qū),還會加強自有UGC社區(qū)建設(shè),很簡單,如果人才智力是互聯(lián)網(wǎng)公司最有價值的流動資產(chǎn),那么數(shù)據(jù)將是未來最重要的固定資產(chǎn)。360現(xiàn)在的數(shù)據(jù)集中在底層安全數(shù)據(jù),應(yīng)用型數(shù)據(jù)還太少。這是它冒著被索賠1億元的風(fēng)險去爬取別家數(shù)據(jù)的根本原因。