高德技術(shù)評測建設(shè)之路
來自:高德技術(shù)
前言
近幾十年是互聯(lián)網(wǎng)高速發(fā)展的時代。隨著互聯(lián)網(wǎng)行業(yè)的發(fā)展壯大,必然會出現(xiàn)角色的細分,從而演化出了不同的職能崗位。隨著日益激烈的市場競爭,修煉內(nèi)功,提升產(chǎn)品效果也成為了各公司發(fā)展的重要工作。產(chǎn)品效果如何評估?用戶體驗如何度量?本文試圖闡述評測這一新崗位在高德的主要職責,發(fā)展進化過程,以及這一崗位所負責的產(chǎn)品效果評估手段與體系搭建。
當你在各搜索引擎輸入評測二字時,看到的相關(guān)搜索通常是這樣的:
這些問題其實能代表大部分人對評測的了解——就是除了游戲評測、手機評測、汽車評測、生活用品評測之外,人們對評測其實不太了解?;ヂ?lián)網(wǎng)公司里Title是評測的同學又是做什么的呢?也許大家的了解就更少了。
做了三年多的評測,在第一年經(jīng)常面對的靈魂拷問就是:“你們評測是做什么的?”這種問題回答起來,基本類似于哲學的終極三問了:“你是誰?你從哪兒來?你到哪兒去?”
評測是誰?這是評測的定位問題。評測從哪兒來?這是評測的根基和起源。評測要到哪兒去?這是評測的發(fā)展目標和方向。
評測是誰?
簡單地說,評測是評估產(chǎn)品效果的團隊。希望能站在用戶的角度,在上線前驗證需求效果,在上線后通過對自身、用戶數(shù)據(jù)和競品的全面分析,建立起產(chǎn)品立體的效果評估體系,也就是評測體系。
評測從哪兒來?
要回答這個問題,其實就是——為什么要評測?
如同每個版本更新,我們都會關(guān)心性能如何一樣,當上線了新的策略時,大家也會同樣關(guān)心產(chǎn)品的效果。產(chǎn)品效果如何評估?策略相關(guān)的需求開發(fā)完成之后,研發(fā)實現(xiàn)的實際效果是否和產(chǎn)品經(jīng)理的預期一致?實際效果又是否和用戶的預期一致?在理想情況下,這三者應該是無差異的。但我們也應該有衡量它們之間是否有差異的方式,給出效果變化是否正向的結(jié)論,以更好地保障用戶的使用體驗。
此外,即使上線前,所有人都一致給出了正向結(jié)論,認為需求上線后一定會給用戶體驗帶來極大提升。真實的產(chǎn)品體驗如何,仍然得用戶說了算。比較大的修改可以通過AB實驗的方式圈出小部分用戶,快速收集用戶數(shù)據(jù),進一步對需求效果是否正向做出評價?;蛘咧苯由暇€,通過對行為數(shù)據(jù)及用戶反饋的分析來完成線上評估。
同時,要在市場上找準自己的位置,對競品的分析必不可少。
有了這些效果評估及分析的需求,就有了評測團隊。
如何進行評測
上線前的離線效果評測及分析、AB實驗及分析、上線后的指標監(jiān)控及問題分析、問題挖掘,競品監(jiān)控和分析是常見的評測手段。
一、離線評測
上線前,針對產(chǎn)品的需求,評測的職責是通過各種方式分析及驗證產(chǎn)品效果,給出是否能達到上線標準的結(jié)論,同時分析出頭部問題所在。
技術(shù)評測團隊成立之初,主要建設(shè)的部分有:確定合作流程、建設(shè)評測專業(yè)能力和建設(shè)評測工具。
合作流程
對標一個版本開發(fā)的項目流程,從需求確定到開發(fā),到測試驗證再到上線。評測從需求串講階段開始,明確有哪些需求涉及到效果變化。再根據(jù)變化情況制定評測方案,同時檢查工具是否符合需要,如否則進入工具快速開發(fā)階段。然后獲取評測數(shù)據(jù),進入評估驗證階段,最后發(fā)送報告,給出需求是否通過評測的結(jié)論,并對出現(xiàn)的問題進行總結(jié)分類。
對于評測介入的不同業(yè)務線來說,評測的流程大致相同。但由于業(yè)務不同,評測方案與方式會有很大不同。
評測方案
根據(jù)產(chǎn)品需求,明確效果修改影響范圍,從而確定評測樣本、評測方式和評測標準。
評測樣本
評測樣本通常會根據(jù)需求影響范圍的不同,區(qū)分為隨機語料和特定語料。
特定語料一般針對需求修改的特定維度、類型進行抽取,目的是保證評測任務的覆蓋率。隨機語料則是為了反映需求的真實影響范圍。當一個評測任務需要使用特定語料時。通常建議使用特定及隨機語料各一份,以同時保證足夠的覆蓋,同時了解真實影響范圍,確保不會出現(xiàn)不符合預期的變化。
除真實語料外,在特定場景下也會使用自己構(gòu)建的語料。通常原因為:1)策略上線之前沒有真實線上語料;2)影響的場景太小,在真實語料中很難找到足夠的Case。
評測標準
評測標準通常涉及到一個概念,即真值。當某類數(shù)據(jù)在現(xiàn)實世界中有唯一正確答案時,即有絕對真值存在,如數(shù)據(jù)信息。因此我們對這類數(shù)據(jù)的評價標準就是是否跟真值一致。
另一類是相對真值。來源可以是用戶日志。例如,當我們在判斷提供給用戶的預計到達時間(ETA)是否正確時,可以用用戶在起終點之間的真實行駛時間作為真值和我們的預估時間進行對比。但由于單一用戶的實際行駛時間受個人行駛習慣以及單次的行駛情況所影響,并不是完全準確的。因此是相對真值。在搜索等業(yè)務線,用戶的點擊行為,也可以成為相對真值,從而成為效果評測的標準。
是否有真值,真值是否容易獲取,能否大批量自動化的獲取,是在確認評測標準時需要做的判斷。
評測方式
對應不同的評測目的,我們給出不同的離線評測方式。有真值的業(yè)務,通過真值的自動獲取或者標注,可以實現(xiàn)自動化評測。而無真值的業(yè)務線,判斷效果好壞的成本較高,通常需要進行人工評測或者半自動化評測。
人工評測,顧名思義,就是靠人力打分。各搜索公司大概是最早對自己的產(chǎn)品進行效果評估的,谷歌、微軟、百度、蘋果等,都采用了類似的方式對質(zhì)量進行評價。
Google曾經(jīng)發(fā)布過長達164頁的人工質(zhì)量評估指南。百度和必應也發(fā)布過類似的文檔。
蘋果在介紹自己的評測體系時,也曾經(jīng)專門解釋過Human Judgement metrics, why we track them?
可以在上線前發(fā)現(xiàn)版本問題。
人工評測的指標與定量指標緊密關(guān)聯(lián)。
可以定義一個版本的整體質(zhì)量,并可持續(xù)跟進效果變更。
比用戶反饋更詳細,更容易定位問題。
人工評測缺點不用多說,成本高、覆蓋面小、效率偏低。因為它的優(yōu)點,目前仍然是各公司評測體系不可缺少的一部分。與別的評測手段結(jié)合使用時,能起到很好的效果。
要保證人工評測的質(zhì)量和效率,有三個關(guān)鍵點,一是標準,二是流程,三是工具。
標準文檔,類似于操作手冊,目的是降低人員培訓成本,并在一些較難判斷的Case上,盡量減少大家認知上的差異。所以標準文檔應該越傻瓜越好。定義明確、所有的特殊和例外場景都有示例、在實踐中反復檢驗,并且保持更新頻率。文檔更新應該有專人負責,并且明確更新周期,同時將更新點同步到所有評估人員。
人工操作錯誤在所難免,沒人能達到百分百的準確。同時需要人工評測的評測對象,通常本身沒有客觀統(tǒng)一的確定答案,因此大家難免在判斷上有差異。這些問題都需要從流程上加以保障。如同一Case必須多人標注,僅保留一致率較高的Case,否則便丟棄?;蛘卟捎贸鯇弿蛯徶疲?jīng)驗較少的人員進行初審,高級人員進行復審。
盲審,這種方式通常在對比時使用,去掉新舊版或者左右版的標識,并且讓結(jié)果隨機出現(xiàn),從而保證評測人員的客觀性,不受主觀因素影響。
人工評測中的人,通常也有兩種身份。一種是普通用戶,一種是專家。專家評測需要站在更專業(yè)的視角,結(jié)合自己對業(yè)務的理解和經(jīng)驗才能得出結(jié)論。另一種則是普通用戶也能站在自己的視角給出效果好壞。后一種可以進行眾測,達到較大范圍的收取用戶體驗與反饋,同時獲得一些真實數(shù)據(jù)支持迭代優(yōu)化的效果。地圖導航由于其專業(yè)性,通常需要進行專家評測。
評測工具
評測工具是評測效率和質(zhì)量的保證。核心功能包括,數(shù)據(jù)倉庫、任務管理、任務的抓取和解析,diff統(tǒng)計和篩選,任務實例的展示、評測、流轉(zhuǎn),抽樣、分配,結(jié)果管理、自動化報告。
通用流程之外的任務類型、打分方式、 Case形態(tài)都可以自己定義。由于大部分是對比類的評測任務,如何做diff也非常關(guān)鍵,盡量把業(yè)務關(guān)注的各個重點都進行diff差分。以便快速了解迭代效果影響面,以及快速定位問題。專家型評測在分析和定位問題時,還需要輔助分析或者判斷的數(shù)據(jù)及工具。工具的接入常常能極大地提高評測效率。
人工評測能夠良好運行,有了一定的評測經(jīng)驗積累和業(yè)務了解之后,開始進行半自動化和自動化的評測建設(shè)。
方式包括定義指標波動閾值和極端Case的冒煙評測,及模擬人工評測的自動打分模型。
自動打分模型通過學習人工評測的特征,自動給出GSB的評分,統(tǒng)計評分結(jié)果,對評測任務的效果進行初步判定。目前可以成為輔助判斷的參考手段。
冒煙評測先定義出業(yè)務核心關(guān)注的場景和維度,設(shè)定指標。并根據(jù)既往評測經(jīng)驗計算出可接受的波動閾值。另外定義出在效果變化上不可接受的惡劣Case。對于部分需要快速驗證上線的實驗,可以實現(xiàn)縮短評測周期,并保證無異常的效果。在部分業(yè)務線借此實現(xiàn)了自動發(fā)布上線的過程。
指標分析+異常檢驗的評測方式,是目前無真值業(yè)務線離線評測的最佳實踐方式之一。通過定義整體指標、場景指標、異常指標,形成較為全面的指標體系。觀察新版本在不同情況下的指標整體波動和分布變化。在過程中篩出異常Case再進行人工校驗。最終根據(jù)指標變化情況和人工檢驗結(jié)果給出結(jié)論。如無異常則可以快速通過評測。
最后,路測是導航產(chǎn)品效果驗證的終極手段。從用戶視角體驗并評估全過程。雖然成本高,效率低,但必不可少,與其他手段并用,也是上線前效果保障的方式之一。
二、AB實驗
部分需求尤其是模型調(diào)優(yōu)。需要上線觀察效果。因此在快速通過離線評測之后,進入AB階段進行效果評估。
AB的核心鏈路是分流打標、指標觀測和實驗結(jié)論產(chǎn)出。關(guān)鍵點是實驗的科學性。效果評估鏈路中,AB能力的具備不難,但AB實驗的建設(shè)是個長期的過程,在此不贅述。
三、線上驗證
經(jīng)過離線驗證、AB實驗,證明效果都是正向之后,需求通常全量上線,上線之后的效果如何,需要對線上指標進行分析,并觀察用戶反饋情況,了解是否在核心指標上有預期的收益,以及觀察指標是否有異常變化。
一個產(chǎn)品的核心是滿足用戶需求,創(chuàng)造用戶價值。因此是否滿足了用戶需求,用戶滿意度如何,產(chǎn)品在市場上的情況怎么樣,必然是一個產(chǎn)品創(chuàng)造者要長期關(guān)注和回答的問題。以上便是我們試圖去回答這些問題的方式。
結(jié)語
評測的建設(shè)過程,其實也是產(chǎn)品效果評估立體體系的搭建過程。這個職責在任何一個互聯(lián)網(wǎng)公司都需要有人承擔。不過角色也許是測試、也許是產(chǎn)品、也許是運營。在高德,之所以把這個角色獨立出來,源于對用戶體驗和產(chǎn)品效果的重視。這一體系當然遠遠未臻完美,還在不斷搭建進化的過程中,我們始終希望能夠通過不斷努力,讓出行更美好。
特別推薦一個分享架構(gòu)+算法的優(yōu)質(zhì)內(nèi)容,還沒關(guān)注的小伙伴,可以長按關(guān)注一下:
長按訂閱更多精彩▼
如有收獲,點個在看,誠摯感謝
免責聲明:本文內(nèi)容由21ic獲得授權(quán)后發(fā)布,版權(quán)歸原作者所有,本平臺僅提供信息存儲服務。文章僅代表作者個人觀點,不代表本平臺立場,如有問題,請聯(lián)系我們,謝謝!