當(dāng)前位置:首頁 > 通信技術(shù) > 通信網(wǎng)絡(luò)
[導(dǎo)讀] WeTest騰訊質(zhì)量開放平臺(wetest.qq.com),是由騰訊游戲官方推出的一站式游戲測試平臺。本著開放共贏的精神將騰訊游戲沉淀十余年,歷經(jīng)千款游戲錘煉的優(yōu)秀測試方案和工具,陸續(xù)開放給廣大

WeTest騰訊質(zhì)量開放平臺(wetest.qq.com),是由騰訊游戲官方推出的一站式游戲測試平臺。本著開放共贏的精神將騰訊游戲沉淀十余年,歷經(jīng)千款游戲錘煉的優(yōu)秀測試方案和工具,陸續(xù)開放給廣大游戲開發(fā)者,助力提高用戶的研發(fā)效率和產(chǎn)品品質(zhì)。

你被爬蟲侵擾過么?當(dāng)你看到“爬蟲”兩個字的時候,是不是已經(jīng)有點血脈賁張的感覺了?千萬要忍耐,稍稍做點什么,就可以在名義上讓他們勝利,實際上讓他們受損失。

一、為什么要反爬蟲1. 爬蟲占總PV比例較高,這樣浪費錢(尤其是三月份爬蟲)

三月份爬蟲是個什么概念呢?每年的三月份我們會迎接一次爬蟲高峰期。

最初我們百思不得其解。直到有一次,四月份的時候,我們刪除了一個url,然后有個爬蟲不斷的爬取url,導(dǎo)致大量報錯,測試開始找我們麻煩。我們只好特意為這個爬蟲發(fā)布了一次站點,把刪除的url又恢復(fù)回去了。

但是當(dāng)時我們的一個組員表示很不服,說,我們不能干掉爬蟲,也就罷了,還要專門為它發(fā)布,這實在是太沒面子了。于是出了個主意,說:url可以上,但是,絕對不給真實數(shù)據(jù)。

于是我們就把一個靜態(tài)文件發(fā)布上去了。報錯停止了,爬蟲沒有停止,也就是說對方并不知道東西都是假的。這個事情給了我們一個很大的啟示,也直接成了我們反爬蟲技術(shù)的核心:變更。

后來有個學(xué)生來申請實習(xí)。我們看了簡歷發(fā)現(xiàn)她爬過攜程。后來面試的時候確認了下,果然她就是四月份害我們發(fā)布的那個家伙。不過因為是個妹子,技術(shù)也不錯,后來就被我們招安了?,F(xiàn)在已經(jīng)快正式入職了。

后來我們一起討論的時候,她提到了,有大量的碩士在寫論文的時候會選擇爬取OTA數(shù)據(jù),并進行輿情分析。因為五月份交論文,所以嘛,大家都是讀過書的,你們懂的,前期各種DotA,LOL,到了三月份了,來不及了,趕緊抓數(shù)據(jù),四月份分析一下,五月份交論文。

就是這么個節(jié)奏。

2. 公司可免費查詢的資源被批量抓走,喪失競爭力,這樣少賺錢。

OTA的價格可以在非登錄狀態(tài)下直接被查詢,這個是底線。如果強制登陸,那么可以通過封殺賬號的方式讓對方付出代價,這也是很多網(wǎng)站的做法。但是我們不能強制對方登錄。那么如果沒有反爬蟲,對方就可以批量復(fù)制我們的信息,我們的競爭力就會大大減少。

競爭對手可以抓到我們的價格,時間長了用戶就會知道,只需要去競爭對手那里就可以了,沒必要來攜程。這對我們是不利的。

3. 爬蟲是否涉嫌違法?如果是的話,是否可以起訴要求賠償?這樣可以賺錢。

這個問題我特意咨詢了法務(wù),最后發(fā)現(xiàn)這在國內(nèi)還是個擦邊球,就是有可能可以起訴成功,也可能完全無效。所以還是需要用技術(shù)手段來做最后的保障。

二、反什么樣的爬蟲1. 十分低級的應(yīng)屆畢業(yè)生

開頭我們提到的三月份爬蟲,就是一個十分明顯的例子。應(yīng)屆畢業(yè)生的爬蟲通常簡單粗暴,根本不管服務(wù)器壓力,加上人數(shù)不可預(yù)測,很容易把站點弄掛。

順便說下,通過爬攜程來獲取offer這條路已經(jīng)行不通了。因為我們都知道,第一個說漂亮女人像花的人,是天才。而第二個。。。你們懂的吧?

2. 十分低級的創(chuàng)業(yè)小公司

現(xiàn)在的創(chuàng)業(yè)公司越來越多,也不知道是被誰忽悠的然后大家創(chuàng)業(yè)了發(fā)現(xiàn)不知道干什么好,覺得大數(shù)據(jù)比較熱,就開始做大數(shù)據(jù)。

分析程序全寫差不多了,發(fā)現(xiàn)自己手頭沒有數(shù)據(jù)。

怎么辦?寫爬蟲爬埃于是就有了不計其數(shù)的小爬蟲,出于公司生死存亡的考慮,不斷爬取數(shù)據(jù)。

3. 不小心寫錯了沒人去停止的失控小爬蟲

攜程上的點評有的時候可能高達60%的訪問量是爬蟲。我們已經(jīng)選擇直接封鎖了,它們依然孜孜不倦地爬齲

什么意思呢?就是說,他們根本爬不到任何數(shù)據(jù),除了httpcode是200以外,一切都是不對的,可是爬蟲依然不停止這個很可能就是一些托管在某些服務(wù)器上的小爬蟲,已經(jīng)無人認領(lǐng)了,依然在辛勤地工作著。

4. 成型的商業(yè)對手

這個是最大的對手,他們有技術(shù),有錢,要什么有什么,如果和你死磕,你就只能硬著頭皮和他死磕。

5. 抽風(fēng)的搜索引擎

大家不要以為搜索引擎都是好人,他們也有抽風(fēng)的時候,而且一抽風(fēng)就會導(dǎo)致服務(wù)器性能下降,請求量跟網(wǎng)絡(luò)攻擊沒什么區(qū)別。

三。 什么是爬蟲和反爬蟲

因為反爬蟲暫時是個較新的領(lǐng)域,因此有些定義要自己下。我們內(nèi)部定義是這樣的:

爬蟲:使用任何技術(shù)手段,批量獲取網(wǎng)站信息的一種方式。關(guān)鍵在于批量。

反爬蟲:使用任何技術(shù)手段,阻止別人批量獲取自己網(wǎng)站信息的一種方式。關(guān)鍵也在于批量。

誤傷:在反爬蟲的過程中,錯誤的將普通用戶識別為爬蟲。誤傷率高的反爬蟲策略,效果再好也不能用。

攔截:成功地阻止爬蟲訪問。這里會有攔截率的概念。通常來說,攔截率越高的反爬蟲策略,誤傷的可能性就越高。因此需要做個權(quán)衡。

資源:機器成本與人力成本的總和。

這里要切記,人力成本也是資源,而且比機器更重要。因為,根據(jù)摩爾定律,機器越來越便宜。而根據(jù)IT行業(yè)的發(fā)展趨勢,程序員工資越來越貴。因此,讓對方加班才是王道,機器成本并不是特別值錢。

四、知己知彼:如何編寫簡單爬蟲

要想做反爬蟲,我們首先需要知道如何寫個簡單的爬蟲。

目前網(wǎng)絡(luò)上搜索到的爬蟲資料十分有限,通常都只是給一段python代碼。python是一門很好的語言,但是用來針對有反爬蟲措施的站點做爬蟲,真的不是最優(yōu)選擇。

更諷刺的是,通常搜到的python爬蟲代碼都會使用一個lynx的user-agent。你們應(yīng)該怎么處理這個user-agent,就不用我來說了吧?

通常編寫爬蟲需要經(jīng)過這么幾個過程:

分析頁面請求格式

創(chuàng)建合適的http請求

批量發(fā)送http請求,獲取數(shù)據(jù)

舉個例子,直接查看攜程生產(chǎn)url。在詳情頁點擊“確定”按鈕,會加載價格。假設(shè)價格是你想要的,那么抓出網(wǎng)絡(luò)請求之后,哪個請求才是你想要的結(jié)果呢?

答案出乎意料的簡單,你只需要用根據(jù)網(wǎng)絡(luò)傳輸數(shù)據(jù)量進行倒序排列即可。因為其他的迷惑性的url再多再復(fù)雜,開發(fā)人員也不會舍得加數(shù)據(jù)量給他。

五、知己知彼:如何編寫高級爬蟲

那么爬蟲進階應(yīng)該如何做呢?通常所謂的進階有以下幾種:

1. 分布式

通常會有一些教材告訴你,為了爬取效率,需要把爬蟲分布式部署到多臺機器上。這完全是騙人的。分布式唯一的作用是:防止對方封IP。封IP是終極手段,效果非常好,當(dāng)然,誤傷起用戶也是非常爽的。

2. 模擬JavaScript

有些教程會說,模擬javascript,抓取動態(tài)網(wǎng)頁,是進階技巧。但是其實這只是個很簡單的功能。因為,如果對方?jīng)]有反爬蟲,你完全可以直接抓ajax本身,而無需關(guān)心js怎么處理的。如果對方有反爬蟲,那么javascript必然十分復(fù)雜,重點在于分析,而不僅僅是簡單的模擬。

換句話說:這應(yīng)該是基本功。

3. PhantomJs

這個是一個極端的例子。這個東西本意是用來做自動測試的,結(jié)果因為效果很好,很多人拿來做爬蟲。但是這個東西有個硬傷,就是:效率。此外PhantomJs也是可以被抓到的,出于多方面原因,這里暫時不講。

六、不同級別爬蟲的優(yōu)缺點

越是低級的爬蟲,越容易被封鎖,但是性能好,成本低。越是高級的爬蟲,越難被封鎖,但是性能低,成本也越高。

當(dāng)成本高到一定程度,我們就可以無需再對爬蟲進行封鎖。經(jīng)濟學(xué)上有個詞叫邊際效應(yīng)。付出成本高到一定程度,收益就不是很多了。

那么如果對雙方資源進行對比,我們就會發(fā)現(xiàn),無條件跟對方死磕,是不劃算的。應(yīng)該有個黃金點,超過這個點,那就讓它爬好了。畢竟我們反爬蟲不是為了面子,而是為了商業(yè)因素。

七、如何設(shè)計一個反爬蟲系統(tǒng)(常規(guī)架構(gòu))

有個朋友曾經(jīng)給過我這樣一個架構(gòu):

對請求進行預(yù)處理,便于識別;

識別是否是爬蟲;

針對識別結(jié)果,進行適當(dāng)?shù)奶幚恚?/p>

當(dāng)時我覺得,聽起來似乎很有道理,不愧是架構(gòu),想法就是和我們不一樣。后來我們真正做起來反應(yīng)過來不對了。因為:

如果能識別出爬蟲,哪還有那么多廢話?想怎么搞它就怎么搞它。如果識別不出來爬蟲,你對誰做適當(dāng)處理?

三句話里面有兩句是廢話,只有一句有用的,而且還沒給出具體實施方式。那么:這種架構(gòu)(師)有什么用?

因為當(dāng)前存在一個架構(gòu)師崇拜問題,所以很多創(chuàng)業(yè)小公司以架構(gòu)師名義招開發(fā)。給出的TItle都是:初級架構(gòu)師,架構(gòu)師本身就是個高級崗位,為什么會有初級架構(gòu)。這就相當(dāng)于:初級將軍/初級司令。

最后去了公司,發(fā)現(xiàn)十個人,一個CTO,九個架構(gòu)師,而且可能你自己是初級架構(gòu)師,其他人還是高級架構(gòu)師。不過初級架構(gòu)師還不算坑爹了,有些小創(chuàng)業(yè)公司還招CTO做開發(fā)呢。

傳統(tǒng)反爬蟲手段

后臺對訪問進行統(tǒng)計,如果單個IP訪問超過閾值,予以封鎖。

這個雖然效果還不錯,但是其實有兩個缺陷,一個是非常容易誤傷普通用戶,另一個就是,IP其實不值錢,幾十塊錢甚至有可能買到幾十萬個IP。所以總體來說是比較虧的。不過針對三月份呢爬蟲,這點還是非常有用的。

后臺對訪問進行統(tǒng)計,如果單個session訪問超過閾值,予以封鎖。

這個看起來更高級了一些,但是其實效果更差,因為session完全不值錢,重新申請一個就可以了。

后臺對訪問進行統(tǒng)計,如果單個userAgent訪問超過閾值,予以封鎖。

這個是大招,類似于抗生素之類的,效果出奇的好,但是殺傷力過大,誤傷非常嚴重,使用的時候要非常小心。至今為止我們也就只短暫封殺過mac下的火狐。

以上的組合

組合起來能力變大,誤傷率下降,在遇到低級爬蟲的時候,還是比較好用的。

由以上我們可以看出,其實爬蟲反爬蟲是個游戲,RMB玩家才最牛逼。

因為上面提到的方法,效果均一般,所以還是用JavaScript比較靠譜。

也許有人會說:javascript做的話,不是可以跳掉前端邏輯,直接拉服務(wù)嗎?怎么會靠譜呢?因為啊,我是一個標(biāo)題黨埃JavaScript不僅僅是做前端。跳過前端不等于跳過JavaScript。也就是說:我們的服務(wù)器是nodejs做的。

思考題:我們寫代碼的時候,最怕碰到什么代碼?什么代碼不好調(diào)試?

eval

eval已經(jīng)臭名昭著了,它效率低下,可讀性糟糕。正是我們所需要的。

goto

js對goto支持并不好,因此需要自己實現(xiàn)goto。

混淆

目前的minify工具通常是minify成abcd之類簡單的名字,這不符合我們的要求。我們可以minify成更好用的,比如阿拉伯語。為什么呢?因為阿拉伯語有的時候是從左向右寫,有的時候是從右向左寫,還有的時候是從下向上寫。除非對方雇個阿拉伯程序員,否則非頭疼死不可。

不穩(wěn)定代碼

什么bug不容易修?不容易重現(xiàn)的bug不好修。因此,我們的代碼要充滿不確定性,每次都不一樣。

代碼演示

下載代碼本身,可以更容易理解。這里簡短介紹下思路:

JAVASCRIPT反爬蟲DEMO,通過更改連接地址,來讓對方抓取到錯誤價格。這種方法,簡單,但是如果對方針對性的來查看,十分容易被發(fā)現(xiàn)。

純JAVASCRIPT反爬蟲DEMO,更改key。這種做法簡單,不容易被發(fā)現(xiàn)。但是可以通過有意爬取錯誤價格的方式來實現(xiàn)。

純JAVASCRIPT反爬蟲DEMO,更改動態(tài)key。這種方法可以讓更改key的代價變?yōu)?,因此代價更低。

純JAVASCRIPT反爬蟲DEMO,十分復(fù)雜的更改key。這種方法,可以讓對方很難分析,如果加了后續(xù)提到的瀏覽器檢測,更難被爬齲

到此為止。

前面我們提到了邊際效應(yīng),就是說,可以到此為止了。后續(xù)再投入人力就得不償失了。除非有專門的對手與你死磕。不過這個時候就是為了尊嚴而戰(zhàn),不是為了商業(yè)因素了。

瀏覽器檢測

針對不同的瀏覽器,我們的檢測方式是不一樣的。

IE,檢測bug;

FF,檢測對標(biāo)準(zhǔn)的嚴格程度;

Chrome,檢測強大特性。

八、我抓到你了——然后該怎么辦不會引發(fā)生產(chǎn)事件——直接攔截

可能引發(fā)生產(chǎn)事件——給假數(shù)據(jù)(也叫投毒)

此外還有一些發(fā)散性的思路。例如是不是可以在響應(yīng)里做SQL注入?畢竟是對方先動的手。不過這個問題法務(wù)沒有給具體回復(fù),也不容易和她解釋。因此暫時只是設(shè)想而已。

1. 技術(shù)壓制

我們都知道,DotAAI里有個de命令,當(dāng)AI被擊殺后,它獲取經(jīng)驗的倍數(shù)會提升。因此,前期殺AI太多,AI會一身神裝,無法擊殺。

正確的做法是,壓制對方等級,但是不擊殺。反爬蟲也是一樣的,不要一開始就搞太過分,逼人家和你死磕。

2. 心理戰(zhàn)

挑釁、憐憫、嘲諷、猥瑣。

以上略過不提,大家領(lǐng)會精神即可。

3. 放水

這個可能是是最高境界了。

程序員都不容易,做爬蟲的尤其不容易??蓱z可憐他們給他們一小口飯吃吧。沒準(zhǔn)過幾天你就因為反爬蟲做得好,改行做爬蟲了。

本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險,如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉