八評(píng)周鴻祎之一:生不逢時(shí)的360搜索
360推搜索,百度股價(jià)應(yīng)聲下跌,業(yè)界震動(dòng),為此作者從4個(gè)角度對(duì)360搜索進(jìn)行分析,并做出預(yù)言。
這篇文章,我盡可能回避專業(yè)的技術(shù),盡可能用通俗的語(yǔ)言給大家分析一下360等搜索,如有不當(dāng)之處,請(qǐng)勿見(jiàn)笑。
一、周鴻祎的搜索情結(jié)
軍事上可以從一個(gè)統(tǒng)帥的性格,來(lái)判斷他可能的指揮方式。同樣,從一個(gè)企業(yè)的產(chǎn)品、企業(yè)運(yùn)作,我們可以看到一個(gè)企業(yè)領(lǐng)導(dǎo)人的性格,從而從這個(gè)性格又可以進(jìn)一步推測(cè)他下一步可能的行動(dòng)。
360最近推出了搜索,這個(gè)徽劍我在07年的時(shí)候就說(shuō)過(guò),我說(shuō)周鴻祎早晚還會(huì)做搜索,因?yàn)樗皇悄欠N愿意做最原始的信息貢獻(xiàn)的性格,而是喜歡整合資源,或者說(shuō)投機(jī)取巧的人。無(wú)論是早期的3721,還是后來(lái)奇虎聚合等,都可以看到這點(diǎn)。
周鴻祎其實(shí)是有很強(qiáng)的搜索情節(jié)的,因?yàn)樗牡谝煌敖鹁蛠?lái)自一款搜索產(chǎn)品—3721,盡管后來(lái)這款產(chǎn)品被人評(píng)價(jià)為流氓軟件,但是不可否認(rèn)一點(diǎn),那就是在中國(guó)互聯(lián)網(wǎng)普及的階段,對(duì)于大批連com和net是啥都分不清楚的人來(lái)說(shuō),3721讓他們使用熟悉的中文就可以在網(wǎng)上暢游了。
當(dāng)初3721是這么宣傳的:“3721公司提供的中文上網(wǎng)服務(wù)――3721“網(wǎng)絡(luò)實(shí)名”,是第三代中文上網(wǎng)方式,用戶無(wú)需記憶復(fù)雜的域名,直接在瀏覽器地址欄中輸入中文名字,就能直達(dá)企業(yè)網(wǎng)站或者找到企業(yè)、產(chǎn)品信息。”但是在網(wǎng)絡(luò)上3721被稱為是最大的流氓軟件之一,現(xiàn)已停止運(yùn)營(yíng)。
“3721網(wǎng)絡(luò)實(shí)名插件由奇虎公司現(xiàn)任董事長(zhǎng)周鴻祎一手創(chuàng)辦,它通過(guò)地址欄實(shí)現(xiàn)中文搜索。2003年11月,雅虎1.2億美元收購(gòu)3721公司,該軟件更名雅虎助手。2005年10月,阿里巴巴宣布完成對(duì)雅虎中國(guó)全部資產(chǎn)收購(gòu),3721業(yè)務(wù)隨之并入馬云手中。2006年,互聯(lián)網(wǎng)業(yè)內(nèi)掀起“反惡意軟件”的熱潮,周鴻祎率領(lǐng)360安全衛(wèi)士成為反惡意軟件先鋒,曾經(jīng)由他一手創(chuàng)辦的3721軟件(雅虎助手)則成了他“圍剿”的重點(diǎn)目標(biāo)之一。當(dāng)年9月,阿里巴巴宣布投資1億元繼續(xù)開(kāi)發(fā)與推廣雅虎助手,但隨后并未看到有實(shí)質(zhì)的市場(chǎng)舉動(dòng)。”這是網(wǎng)上對(duì)3721的一段描述。
3721最大的爭(zhēng)議,就在于他的傳播方式,還有安裝后排斥競(jìng)爭(zhēng)對(duì)手、獨(dú)占用戶電腦的網(wǎng)絡(luò)查詢接口的技術(shù)手段。3721雖然給那些菜鳥(niǎo)網(wǎng)民提供了極大的方便,但是對(duì)于那些掌握一定技術(shù)能力的熟練網(wǎng)民,還有就是被3721所干擾的競(jìng)爭(zhēng)對(duì)手,都會(huì)采取各種手段針對(duì)3721。從而使得3721在幾年后變得越來(lái)越被更多的人所排斥。
當(dāng)年的3721一出來(lái),采用的是利用WINDOWS 98的系統(tǒng)漏洞,用病毒的方法進(jìn)行傳播,在短期內(nèi)就積累了海量的用戶。有人曾經(jīng)問(wèn)過(guò)徽劍“你覺(jué)得中國(guó)最大的黑客是誰(shuí)?”我當(dāng)時(shí)回答“我也許不好說(shuō)中國(guó)技術(shù)最牛的黑客是誰(shuí),但是我可以肯定周鴻祎是商業(yè)上最成功、規(guī)模最大的黑客。別的黑客只能賺點(diǎn)小錢,他可以通過(guò)病毒等黑客手段賺到以億來(lái)計(jì)算的財(cái)富”。
當(dāng)然,時(shí)過(guò)境遷,我們今天再來(lái)評(píng)價(jià)3721已經(jīng)有些過(guò)時(shí),下面就讓我們來(lái)看看360的搜索吧。
二、搜索的技術(shù)門檻
最原始的搜索,就是建立在數(shù)據(jù)庫(kù)基礎(chǔ)上的關(guān)鍵字匹配,后來(lái)進(jìn)一步延伸到所謂模糊查詢、統(tǒng)計(jì)分析、知識(shí)發(fā)現(xiàn)等系列技術(shù)的應(yīng)用。因?yàn)樗阉?,可以讓網(wǎng)民從海量的信息中找到他需要的資源,減少了他挨個(gè)去查找的時(shí)間,提高了他的使用效率,從而使得今天的網(wǎng)民,在上網(wǎng)的時(shí)候,已經(jīng)無(wú)法離開(kāi)搜索。
很多人把搜索看的神乎其神,其實(shí)根本沒(méi)那么復(fù)雜。只要一個(gè)會(huì)做網(wǎng)頁(yè)的技術(shù)人員、一個(gè)懂得存儲(chǔ)應(yīng)用開(kāi)發(fā)的技術(shù)人員、一個(gè)對(duì)C或者C++開(kāi)發(fā)TCP/IP應(yīng)用比較熟悉的技術(shù)人員、一個(gè)對(duì)索引檢索開(kāi)發(fā)熟悉的技術(shù)人員,就可以組成一個(gè)搜索引擎開(kāi)發(fā)團(tuán)隊(duì)。
1、會(huì)做網(wǎng)頁(yè)的,去做跟用戶對(duì)接的那部分。
2、懂得存儲(chǔ)應(yīng)用開(kāi)發(fā)的技術(shù)人員,負(fù)責(zé)搭建存儲(chǔ)系統(tǒng),一個(gè)最簡(jiǎn)單的方式,就是搭建一批服務(wù)器,每個(gè)服務(wù)器分門別類,比如A組服務(wù)器負(fù)責(zé)存儲(chǔ)新聞,B組服務(wù)器負(fù)責(zé)存儲(chǔ)娛樂(lè)等。再細(xì)分下去,A1服務(wù)器負(fù)責(zé)存儲(chǔ)人民網(wǎng)的,A2服務(wù)器負(fù)責(zé)存儲(chǔ)新華網(wǎng)的,B1服務(wù)器負(fù)責(zé)存儲(chǔ)李宇春的信息、B2服務(wù)器負(fù)責(zé)存儲(chǔ)周杰倫的信息等等,如此類推,
3、對(duì)C或者C++開(kāi)發(fā)TCP/IP應(yīng)用比較熟悉的技術(shù)人員,就可以開(kāi)發(fā)一個(gè)所謂“網(wǎng)絡(luò)蜘蛛”的爬蟲(chóng)程序,其實(shí)說(shuō)白了就是一個(gè)“離線下載”工具,下載下來(lái)后,對(duì)頁(yè)面里面的鏈接進(jìn)行分析,繼續(xù)不停找新的來(lái)源。
4、對(duì)索引檢索開(kāi)發(fā)熟悉的技術(shù)人員,負(fù)責(zé)對(duì)抓下來(lái)的文本做進(jìn)一步分析,利用單詞和短語(yǔ)庫(kù),對(duì)文本進(jìn)行分析,按照存儲(chǔ)服務(wù)器的配置,把不同的信息,存儲(chǔ)到對(duì)應(yīng)的服務(wù)器里面。同時(shí)他還需要和1合作,對(duì)于網(wǎng)頁(yè)上用戶提出的查詢要求,他要做出文本分析,然后導(dǎo)引到指定服務(wù)器上調(diào)出相應(yīng)結(jié)果。
[!--empirenews.page--]
以上就是一個(gè)搜索引擎的技術(shù)的大致體系,當(dāng)然,實(shí)際中的搜索引擎,遠(yuǎn)比這個(gè)復(fù)雜。區(qū)別就好比鉆天猴的煙花和火箭的那么大。但是基本的架構(gòu)原理還不會(huì)變化的。其實(shí)我們都知道,很多時(shí)候,理論很好明白,但是實(shí)際做起來(lái)會(huì)在細(xì)節(jié)上面臨大量問(wèn)題。那么這里有哪幾個(gè)地方會(huì)比較難呢?
依照徽劍我對(duì)搜索引擎技術(shù)差不多十來(lái)年的關(guān)注,我總結(jié)出搜索引擎技術(shù)的兩大門檻:
第一個(gè)門檻:海量的數(shù)據(jù)搜集和存儲(chǔ),
第二個(gè)門檻:搜索結(jié)果的優(yōu)化
下面分別表述:
第一個(gè)門檻:海量的數(shù)據(jù)搜集和存儲(chǔ),因?yàn)樗阉饕嫘枰樵兇罅康木W(wǎng)絡(luò)數(shù)據(jù),并且把這些數(shù)據(jù)抓回爬蟲(chóng)服務(wù)器,在做進(jìn)一步的處理,最后存儲(chǔ)在自己的存儲(chǔ)系統(tǒng)里面,對(duì)于大多數(shù)搜索引擎的來(lái)說(shuō),更多是通用查詢,也就是“亂查一氣”,你不知道上億網(wǎng)民會(huì)通過(guò)你的網(wǎng)頁(yè)接口,提交什么樣的查詢關(guān)鍵詞。所以你只能盡可能多的搜集各種信息,以備不測(cè)。
這這個(gè)海量數(shù)據(jù)的搜集就需要大量的爬蟲(chóng)服務(wù)器、還有大量的時(shí)候去處理。問(wèn)題在于不光是搜集過(guò)來(lái),這邊還得儲(chǔ)存,這就需要大量的存儲(chǔ)系統(tǒng),說(shuō)白了就是需要海量的硬盤(pán)。你想想,你要把差不多整個(gè)互聯(lián)網(wǎng)上的各種網(wǎng)站的數(shù)據(jù)都要抓一部分,甚至全部。這數(shù)據(jù)量多大可想而知。
第二個(gè)門檻:搜索結(jié)果的優(yōu)化,這個(gè)就涉及到好幾個(gè)方面,一是存儲(chǔ)系統(tǒng)的數(shù)據(jù)檢索需要做到快捷方便,需要定期對(duì)搜索行為做出分析,對(duì)于不同熱度的查詢數(shù)據(jù),用不同優(yōu)先權(quán)的緩存服務(wù)器來(lái)處理。二是對(duì)網(wǎng)民查詢內(nèi)容的優(yōu)化,很多時(shí)候,網(wǎng)民在查詢時(shí),并不能很好的表達(dá)他的意思,所以如何去理解,給出盡可能近似的結(jié)果,是非常關(guān)鍵的事情,打個(gè)比方,用戶搜索張柏芝,也許是要找謝霆鋒相關(guān)的,也可能是要找跟陳冠希相關(guān)的。三是存儲(chǔ)時(shí)要對(duì)網(wǎng)頁(yè)進(jìn)行語(yǔ)義分析,如何準(zhǔn)確識(shí)別一個(gè)網(wǎng)頁(yè)的主要內(nèi)容,還有這個(gè)網(wǎng)頁(yè)在網(wǎng)絡(luò)上的價(jià)值,比如是不是第一個(gè)發(fā)布的?是不是有跟類似網(wǎng)頁(yè)區(qū)別的?等等,這些都需要做很復(fù)雜的工作。
目前而言,搜索引擎更多集中在文本或者說(shuō)字符搜索上面,諸如圖片識(shí)別和語(yǔ)音識(shí)別、視頻識(shí)別,目前都在研究,也取得了一些進(jìn)展,但是很遺憾,因?yàn)樽R(shí)別的效率、成本等原因,短期還無(wú)法在非專業(yè)領(lǐng)域有多大的應(yīng)用。所以有關(guān)這方面的,這里就不一一贅述。
三、360搜索的基礎(chǔ)
百度做搜索引擎已經(jīng)差不多十年了,在這十年間,百度建立起一個(gè)極其龐大的海量數(shù)據(jù)系統(tǒng),這個(gè)系統(tǒng),儲(chǔ)存了海量的中文互聯(lián)網(wǎng)上的各種數(shù)據(jù),基本上可以認(rèn)為,百度存儲(chǔ)了一個(gè)中國(guó)互聯(lián)網(wǎng)的鏡像。通過(guò)這個(gè)數(shù)據(jù)系統(tǒng),百度能夠?yàn)榫W(wǎng)民提供非常詳細(xì)、完備的網(wǎng)上數(shù)據(jù)信息。
那么對(duì)照下360,這些年來(lái),360即使有意開(kāi)發(fā)一套自己的搜索引擎系統(tǒng),充其量也就是開(kāi)展技術(shù)研究,掌握一整套搜索引擎的技術(shù)架構(gòu),但是360沒(méi)有辦法建立像百度那么龐大的數(shù)據(jù)系統(tǒng),因此360搜索檢索到的數(shù)據(jù)是不完善的,或許過(guò)幾年360能夠盡可能接近百度的數(shù)據(jù)量,但是現(xiàn)在不行。
這種建設(shè)不光是時(shí)間,還有金錢,徽劍我可以毫不客氣地肯定,百度的存儲(chǔ)系統(tǒng)的硬件造價(jià),肯定遠(yuǎn)遠(yuǎn)超過(guò)了360公司的市值。
其次,更為關(guān)鍵的是,百度做了這么多年的搜索引擎,對(duì)于中國(guó)網(wǎng)民的檢索習(xí)慣等,有了極其豐富的了解。這種了解,不僅僅是建立在一般的技術(shù)優(yōu)化上面,更多是可以建立一整套完善的人工干預(yù)體系。
也許有人不明白為啥需要人工干預(yù),道理很簡(jiǎn)單,因?yàn)橛?jì)算機(jī)無(wú)法基于語(yǔ)義分析,而網(wǎng)民使用搜索引擎的時(shí)候,是按照他的個(gè)人意識(shí)來(lái)檢索的,因此搜索引擎檢索出最接近語(yǔ)義的結(jié)果,就成了一個(gè)非常迫切的任務(wù)。因此這個(gè)時(shí)候,建立在基于統(tǒng)計(jì)結(jié)果的數(shù)據(jù)基礎(chǔ)上,通過(guò)對(duì)于數(shù)據(jù)做出的知識(shí)發(fā)現(xiàn),然后再結(jié)合人工輔助修正,就可以得出更加完美的結(jié)果。
如果有人對(duì)上面這段話覺(jué)得不好理解,那么大家可以去看看百度和谷歌的搜索結(jié)果,你會(huì)發(fā)現(xiàn)一個(gè)有意思的現(xiàn)象,越是精確性的檢索關(guān)鍵詞例如科技等方面內(nèi)容,谷歌做的比百度更準(zhǔn)確,越是跟社會(huì)生活領(lǐng)域接近的內(nèi)容,百度能夠讓使用者找到更多相關(guān)的有效信息。其實(shí)這個(gè)現(xiàn)象告訴我們,百度的人工干預(yù)遠(yuǎn)遠(yuǎn)多于谷歌,徽劍我的定義是:百度是社會(huì)學(xué)系的,谷歌是數(shù)學(xué)系的。
以上的優(yōu)勢(shì),360即使高薪聘請(qǐng)頂級(jí)搜索引擎開(kāi)發(fā)工程師,他也無(wú)法在短期內(nèi)追上百度。如果說(shuō)跟百度相比,360的優(yōu)勢(shì)在哪里呢?
如果僅僅從搜索的角度看,360的系列軟件,特別是瀏覽器有海量的安裝用戶,瀏覽器本身就是互聯(lián)網(wǎng)的入口,360可以利用瀏覽器上嵌入的導(dǎo)航頁(yè)面和搜索框,使得用戶默認(rèn)選擇360搜索引擎。這就是360可以驕傲的資本。
除此以外,別無(wú)其他。
[!--empirenews.page--]
四、360搜索可能的幾種方向
那么360搜索的瀏覽器優(yōu)勢(shì)又會(huì)有多大?
很多人都在說(shuō),360有瀏覽器,所以360的搜索肯定可以做的很好,那么徽劍要反問(wèn)一句,微軟還有操作系統(tǒng)呢,那么他的BING做得如何呢?網(wǎng)民使用搜索引擎,其核心在于他能不能通過(guò)這個(gè)搜索引擎,找到他想找的東西,如果他試過(guò)幾次,發(fā)現(xiàn)找不到或者不是很好找,他就不會(huì)用的。就像bing這樣所有WINDOWS系統(tǒng)上都裝了,但是大多數(shù)中國(guó)的網(wǎng)民還是不會(huì)去用,為啥?答案很簡(jiǎn)單,因?yàn)锽ING提供內(nèi)容,無(wú)法像百度那樣滿足普通網(wǎng)民的需求。
那么有人會(huì)問(wèn)360搜索會(huì)如何發(fā)展呢?徽劍我把看可以分為這幾個(gè)部分:
第一,利用360瀏覽器的搜索入口,從而帶來(lái)巨大的入口數(shù)量眾所周知,360瀏覽器在國(guó)內(nèi)目前有較大份額,因此利用瀏覽器上的導(dǎo)航網(wǎng)址和搜索接口,吸引用戶使用默認(rèn)的360搜索,這個(gè)肯定是360的重點(diǎn)發(fā)展方向。從目前360搜索推出來(lái)的這幾天看,也是這樣運(yùn)作的。
第二,調(diào)用其他搜索引擎的結(jié)果。前面分析了360搜索面臨的“累積”門檻,也就是說(shuō),因?yàn)?60缺乏大量的儲(chǔ)備網(wǎng)絡(luò)鏡像數(shù)據(jù),因此不管360的搜索團(tuán)隊(duì)技術(shù)水平如何,他們?cè)诙唐趦?nèi)都會(huì)面臨無(wú)法向用戶提供足夠的數(shù)據(jù)困境。因此從技術(shù)角度看,最簡(jiǎn)單的方法就是調(diào)用其他搜索引擎的檢索結(jié)果,就像當(dāng)初SOSO跟谷歌合作,谷歌為SOSO提供檢索數(shù)據(jù)一樣。這幾天大家也看到了,360大量調(diào)用百度的數(shù)據(jù)。這種情況必然會(huì)導(dǎo)致雙方的版權(quán)沖突,不排除百度會(huì)采取技術(shù)手段對(duì)360服務(wù)器端的爬蟲(chóng)進(jìn)行屏蔽。
第三,干擾其他搜索引擎的發(fā)展,360搜索的發(fā)展必然面臨其他搜索引擎的競(jìng)爭(zhēng),但是短期內(nèi)360又無(wú)法提供足夠優(yōu)質(zhì)的搜索結(jié)果,那么怎么競(jìng)爭(zhēng)?如同跑步比賽一樣,如果你跑不過(guò)其他人,你又想拿第一,怎么辦?一個(gè)最簡(jiǎn)單的方法,就是讓其他人變慢。因?yàn)橹T如360安全衛(wèi)士、360防火墻等占據(jù)了大量的用戶計(jì)算機(jī),那么360完全可以對(duì)其他搜索引擎的結(jié)果展示頁(yè)面進(jìn)行“安全”考察,可以采用的方法包括,利用360防火墻,干擾其他搜索引擎的數(shù)據(jù)包傳輸;利用360安全衛(wèi)士,對(duì)其他搜索引擎的結(jié)果向用戶報(bào)警,提示“有安全威脅”,從而實(shí)現(xiàn)干擾用戶的選擇。
第四,對(duì)于跟其他搜索引擎合作的網(wǎng)站等,采取諸如“提示警告”等方式,干擾用戶的選擇。這一招跟上面說(shuō)的第三條做法很像,但是真對(duì)的是那些搜索引擎的客戶,比如對(duì)于百度的付費(fèi)客戶,如果360安全衛(wèi)士等,在用戶檢索這些頁(yè)面時(shí)提出警告,從而干擾這些客戶的廣告行為,試想如果一個(gè)廣告客戶,因?yàn)樵诎俣鹊壬厦嫱斗艔V告,網(wǎng)民訪問(wèn)時(shí),頻頻被提示有“安全威脅”,大多數(shù)菜鳥(niǎo)網(wǎng)民會(huì)如何選擇?
五、綜述:
多年前,我就成功預(yù)言了360的搜索引擎之路,今天我又對(duì)360搜索做出了幾項(xiàng)預(yù)言吧。
有人問(wèn)360的搜索未來(lái)能做多大?徽劍我的回答是,跟搜狗爭(zhēng)老二,但是短期內(nèi),只能是老三的位置,不要看這幾天的數(shù)據(jù),因?yàn)?60搜索的信息、用戶體驗(yàn)等遠(yuǎn)不搜狗,更不用說(shuō)百度了。特別是周鴻祎的投機(jī)性格,始終讓我覺(jué)得他不是那種可以把一個(gè)產(chǎn)品做到長(zhǎng)遠(yuǎn)的人。
最關(guān)鍵是,我發(fā)現(xiàn)今天的360搜索,很多方面已經(jīng)走上了3721的道路,所不同的是瀏覽器插件變成了瀏覽器等,下一步一些像前面說(shuō)的那些手法,我覺(jué)得早晚必然會(huì)出來(lái),一旦出來(lái),必然會(huì)重蹈3721的覆轍。
更多雜談資訊盡在21ic網(wǎng)友雜談?lì)l道