分享嘉賓:林睿 阿里飛豬
編輯整理:杜正海、Hoh
出品平臺:DataFunTalk
導讀:旅行場景的搜索起初是為了滿足用戶某種特定的強需求而出現的,如機票、火車票、酒店等搜索。這些需求有著各自不同的特點,傳統(tǒng)的旅行搜索往往會對不同業(yè)務進行定制化搜索策略。隨著人工智能技術的不斷發(fā)展,用戶對產品的易用性提出了更高的要求。旅行場景的搜索逐漸發(fā)展為一個擁有旅行定制搜索策略的全文檢索引擎。本文將為大家介紹阿里飛豬在旅行場景下搜索技術的應用與創(chuàng)新,主要內容包括:
-
豬搜背景
-
基礎建設
-
召回策略
-
思考總結
1. 飛豬搜索
飛豬搜索業(yè)務分為兩大部分:一是全局搜索,二是行業(yè)小搜。右邊飛豬界面的全局搜索就是最上方的輸入框。直接對應飛豬內部所有內容的搜索入口,都可以從全局搜索獲得。右圖中間部分就是產業(yè)小搜的垂直入口。比如搜索酒店機票和旅游度假產品,一般用戶會使用行業(yè)小搜,垂直搜索需求。隨著飛豬業(yè)務的發(fā)展,以及用戶需求的變化,流量會從行業(yè)小搜逐漸遷移到飛豬的全局搜索上。主要是因為:
-
旅游行業(yè)是一個跨類目的需求。用戶天然的需要定機票、酒店以及一些網絡的門票,如果全部通過垂直搜索,需要進行多次點擊,對用戶來說不是很方便。
-
飛豬很多流量是由手淘引流過來的,手淘是一個全局的搜索。所以用戶會習慣性的使用全局搜索來滿足他的需求。
-
對用戶來說,用全局搜索的操作是最方便的,路徑最短。
2. 豬搜框架
豬搜框架如圖所示,首先通過調用QP來獲得當前的Query理解,以及需要召回的Query生成,然后通過SP分頁服務調用HA3倒排索引來獲取召回的結果。通過粗排序和加權排序將結果通過LTP服務做重排序,最后將得到的結果展示給用戶。這里主要介紹下QP的工作。
3. QP
QP即Query理解與召回生成服務。在這個服務中,我們面臨的挑戰(zhàn)主要有:
-
性能限制:在業(yè)界,通常QP階段只占用整個線上響應時間的1/10。所以,對性能要求比較高,響應時間不能過長,需要提供良好的線上服務體驗。
-
文本理解:我們的QP和其他的全局搜索QP一樣,也需要做傳統(tǒng)的文本理解,提供文本相關性的能力。
-
獨有挑戰(zhàn):在旅行場景下,會有一些特殊的要求。比如LBS與POI的理解能力,能夠提供空間上的相關性。
-
特征理解:從業(yè)務發(fā)展角度,我們還需要用戶特征的理解,可以提供個性化的相關性,來滿足用戶的需求。
接下來,為大家介紹下飛豬在具體基礎建設上的一些工作。
1. Query tagging
Tagging是QP中的一個基礎任務。負責的功能是把一個query 打出目的地和意圖。舉個例子,“北京自由行”中“北京”就是用戶的目的地,“自由行”是用戶的意圖需求,可以看出用戶希望的是一個自由行的商品,而不是跟團游這類的產品,可能會更希望獲得一些機票+酒店或者是無購物的產品。
這里的工作,主要分為以下幾層:
-
數據層:通過離線挖掘出tagging詞庫。
-
算法層:通過Tag消歧、CRF等算法進行在線打標工作。
-
應用層:在tagging上的一些應用,如query丟詞和query改寫。
由于線上性能的限制,我們主要依賴于離線的挖掘。這里以我們內部比較重要的商品POI挖掘為例,來介紹下我們離線挖掘tagging 的工作。
2. 商品POI挖掘
① QueryTagging
POI的挖掘除了商品title 可能會有一些景點信息外,詳情也會包含大量的信息。因此,我們需要從這些內容中挖掘出有價值的信息,來擴充詞表。例如圖中的景點POI,可以用作索引參與召回,但是詳情是非結構化的HTML文本,要挖掘POI實體,會有比較大的難度。
② 建模方式
我們采用了典型的序列標注問題來解決這個問題。我們通過一些特征,如詞特征、數字特征、類目特征,進行篩選,通過人工標注來訓練我們的CRF++模型。后續(xù)我們還升級成了Template下的模型來訓練NER模型,使我們可以在離線,對接了大量的文本數據,進行序列標注。最終,我們達到了99%以上的準確率,召回率也超過95%。擴充了大量的沒有挖掘出POI商品/POI特征的度假商品,使它們產生了POI的特征,可以更好地為后續(xù)的POI及檢索做出服務。
3. 同義詞挖掘
在旅行行業(yè),存在四種類型的同義詞:
-
翻譯類:如“迪斯尼”,可能有不同的中文描述方式
-
中英文詞:有的用戶用英文來描述,而有的用戶用中文來表述,但是商家描述的title是英文
-
包含關系:比如“普吉”和“普吉島”,可能“普吉”這個POI是“普吉島”這個大POI下的子POI
-
錯別字:比如“國色天香”,在圖中應該是“國色天鄉(xiāng)”
我們希望可以用一個通用的模型來解決這種同義詞關系。
我們的辦法是基于用戶點擊行為,拼接query和商品title,使得query和title中的詞形成上下文,然后基于word2vec的skip-gram模型,得到每個詞的詞向量,并基于語義相似性,產生每個詞top 20的候選,同時將問題轉換為二分類問題。
另外,在特征工程上,我們會利用中英文的編輯距離、共現數目以及是否包含關系、余弦相似度等來構建特征。
然后,我們通過人工標注來構建正樣本,負樣本按照編輯距離倒排隨機采樣,使用LR模型和XGBoost對標注好的樣本進行二分類。
最后,我們還會經過一層人工審核,因為同義詞的影響面積比較大,如果直接通過算法挖掘,在線上的效果可能不會特別好。所以我們沒有采用復雜的模型,只是夠用就可以了。這樣在萬級別的人工標注上,我們的準確率可以達到94%。
4. 糾錯
① 背景
對于糾錯,剛才提到了詞級別的錯誤,事實上,整個Query中也會出現一些錯誤。只用詞級別的糾錯,不能滿足用戶需求,需要一個全query糾錯邏輯。
由于QP階段對性能要求很高,現在業(yè)界常用的seq2seq方法,雖然效果很好,但整體性能不達標。我們可以在離線利用seq2seq來挖掘高頻的信息,但在線上很難應用seq2seq的方法來做糾錯。
② 方案
我們的方案是采用傳統(tǒng)的隱馬爾科夫模型,基于統(tǒng)計的方式來做,能夠達到線上的性能要求。將錯誤分為同音字與形近字,可以獲得比較強的可解釋性。
-
同音字:因為漢字都可以查到拼音碼表,我們可以很容易的構建一個同音字的集合,然后通過一些統(tǒng)計的方式,就能獲得同音詞生成概率。
-
形近字:比較難獲得,因為很難判斷兩個字是否有些相似。我們這里,通過字體圖像和字體結構來解決的。
③ 基于圖像
說到基于圖像的方式,最直接的方式就是基于CNN圖像網絡的匹配算法。但是出于性能方面的考慮,這種方法的效果往往達不到我們的性能要求,所以我們采用了一個比較簡單且有效的方法,就是我們直接對兩個可能形近的字的圖像進行計算。對形近字而言,我們在標準的字體庫中,發(fā)現它有兩個特點:
如鳥和烏兩個字,在字體庫里的圖直接對比,它們的重合度是非常高的,由于字體庫里的字,它的標準化程度是很高的,可以通過這種方式來進行計算。我們這里基于圖像的方式,就是采用我們對字體庫里的兩個字來進行每個點的一個具體的計算。
另外,對于鳥和烏這個字,鳥這個字的每一個點在烏字上找到和它最近的一個點,作為這兩個點相似度,那對于每一個點,我們都可以找到一個距離,然后通過求和的均值計算,我們就可以得到這個兩個字距離的相似度。
通過離線對兩個字以各自的圖像進行計算,那就可以獲得比較相似的一些字。
④ 基于字體結構
另外,我們還會通過字體結構的方式來進行計算。像倉頡、鄭碼、四角號碼的編碼,是基于這個字的情況來做的編碼。對于倆個形近字,它們的倉頡碼、鄭碼、四角號碼往往也會比較相似。所以,我們通過序列的相似計算,可以獲得這兩個形近字的相似度,然后通過相似度進行閾值計算,就可以得到字形相似的集合。
接下來為大家介紹下飛豬在召回策略上的一些技術:
航旅召回跟常用的搜索召回有相似的地方,也有不同,面臨的挑戰(zhàn)主要有:
-
用戶query和商品描述之間存在GAP
-
航旅商品僅百萬級,而且城市分割,很容易造成無結果
-
召回優(yōu)化時,很容易導致誤召回
-
旅行是低頻行為,用戶行為稀疏,算法樣本較少
鑒于這種情況,我們對用戶的召回分成了以下四種召回方式:經典召回(同義詞挖掘、相似query改寫、商品POI挖掘)、LBS召回、向量召回、個性化召回(I2I&U2I以及向量模型),來滿足用戶的需求。
1. 經典召回
剛剛已經介紹過同義詞挖掘和商品POI挖掘,這里主要介紹下相似query改寫。以“上海迪士尼樂園門票”為例,其實標準的商品是“上海迪士尼度假區(qū)”,而“黃山風景區(qū)”的標準商品其實是“黃山”。在這樣的情況下,如果我們直接創(chuàng)建搜索,可能召回的效果比較差。因而,我們會進行一些相似query挖掘,來滿足這種query和title GAP的情況。
Learning To Rewrite:
我們思路是使用多路改寫產生候選集合,然后用learning to Rank 選取top K結果。
首先假設用戶在篩選中輸入了query,這個query是比較相似的。因為用戶在篩選中是想要獲得他想要的結果。如果用戶第一個query,沒有得到想要的結果,用戶會進行一些改寫。就相當于用戶幫助我們完成了一次改寫,我們從中可以學到用戶改寫的信息。這里我們是用類似word2vec的模型實現的。
另外,從query相似度來看,我從文本上也可以獲得一個相似的query文本。這里我們采用的是doc2vec模型,來獲得文本相似性。
最后,通過query和title點擊,可以訓練一個雙塔結構的語義相似度模型,來獲得query和title相似性的特征。
通過這三種方式,我們可以獲得想要的相似query改寫的候選。
對于候選,通過一些人工標注及線上的埋點信息,來獲得原query和候選query相似的標注。這樣我們就可以訓練一個模型來進行相似query的排序工作。
最終,我們線上使用的模型是PS-SMART 模型。加上規(guī)則過濾之后,準確率可以達到99%??梢杂绊懢€上36%的PV,對一次UV的無結果率可以相對降低18%。
2. 航旅特色召回:LBS召回
由于用戶是在旅行場景下搜索,用戶天然會需要LBS 相關的信息。如果是差旅用戶,可能會定阿里巴巴園區(qū)附近的酒店,如果是旅游用戶,可能會定黃山風景區(qū)附近的酒店。這就需要識別用戶想要的商品大概在什么樣的LBS范圍內。解決的方法是通過對query中用戶POI的識別,獲取用戶的經緯度,進行召回上的限制。
建模過程:
首先會對query進行常規(guī)的分詞,然后在POI專用的倒排索引庫進行檢索,獲得候選POI。接下來對候選POI query進行特征計算,計算出文本相似性、embedding相似距離,以及用戶當前位置輸入后,與歷史點擊的商品地點的距離做特征。然后用特征構建模型算出一個分數,通過一定的閾值得到結果。
最后,我們的準確率可以達到95%,GMV和成交都得到了一定的提升。
3. 深度召回:向量召回
① 背景
前面提到的都是一些簡單的文本召回,以及LBS召回等偏傳統(tǒng)的方法。前面說過,我們的商品按照目的地切換后,還是很稀疏,還會存在無召回的情況。對于這種情況,我們想到引入向量召回的方式進行補充召回。可以覆蓋改寫沒有的情況,可以召回一些原來不能召回的產品。
② 向量召回整體架構
向量召回架構如上圖。在線通過對query 進行embedding。離線通過HA3引擎,把所有的item embedding存儲到HA3引擎中。最后,SP通過從QP獲得query embedding,進行HA3檢索,獲得需要的商品。
③ 模型結構
模型結構,如上所示:
-
query側:通過對query的文本,進行卷積層特征抽取。
-
商品側:我們主要的工作在這里,除了文本上對用戶目的地的需求,對商品類目的需求也是比較關注的。所以在商品特征上,使用了商品title文本的卷積特征,以及目的地類目id 的特征。
對這三個特征,我們沒有使用簡單的concat,而是使用了tensor fusion進行三個向量的外積,可以讓特征更好的融合。
最后,通過全鏈接層進行特征抽取,計算向量內積。
對于損失函數,我們使用的large margin loss。對于學的足夠充分的case ,就丟棄掉,不再進行學習,讓模型更快的達到我們想要的效果。
④ 樣本選擇
在樣本選擇上,我們對正負樣本也做了一些探索。
集團內通用的方法:
-
正樣本:query下用戶點擊的商品
-
負樣本:未點擊的商品
這樣的方法更適合在排序上使用,而不太適合召回。以左圖為例,用戶點擊了“上海迪士尼度假區(qū)”,未點擊的是下面的商品,雖然可能是由于商品的標題標準化比較低,用戶未點擊,但不能說它是不相關的商品。
我們的方法:
-
正樣本:和集團一樣,使用點擊的商品
-
負樣本:隨機選取的樣本作為負樣本
使用隨機選擇有兩方面:一是在全量商品中,進行隨機選擇;二是在一個類目或者目的地下,進行隨機選擇。這樣可以提升訓練的難度,達到我們想要的效果。
⑤ 模型產出與使用方式
最終產出的分數,也給排序使用了,作為排序的一個特征,取得了不錯的效果,可以排在第4位。另外,線上召回可以讓無結果率降低32.7%。同時,擴充了1.7倍的相似query。
4. 個性化召回
為什么做個性化召回?
因為在旅行場景下,會存在一些泛需求搜索。比如搜杭州,我們會對杭州所有的商品和酒店進行召回。這樣大量的召回會給后面的排序造成很大的壓力,沒辦法根據用戶的query排出一個用戶想要的item。
另外,還有一種情況是用戶搜索的意圖不是很明確,可能會存在一些無結果的情況。對于這種情況,傳統(tǒng)的文本相似性、深度召回都無法召回的情況下,可以嘗試個性化的方式,給用戶推薦一些商品,直接展示在搜索結果中,提供補充,來提升用戶體驗。實踐證明,用戶也會對這類商品進行點擊和購買。
我們的方案有兩種方式:
-
引入推薦的召回結果,在此基礎上進行相關性粗排,得到個性化召回
-
構建了個性化專用的向量召回模型,來得到更好的個性化召回結果
整體的方式是將召回池分為個性化召回和文本召回兩路:
-
個性化召回:通過推薦的重定向、i2i 、lbs2i以及屬性2i等方式,來獲得推薦召回結果。
-
文本相關性過濾:通過文本相關性的過濾(如關鍵詞命中和向量cos相似度),把推薦召回和當前用戶搜索query很不相關的item過濾掉,展現給用戶比較相關,也是通過用戶i2i擴展的結果。
個性化召回模型:
-
在用戶側,通過用戶畫像屬性和用戶的query,進行特征抽取。另外,我們引入了用戶操作序列,來達到個性化目的。比如用戶最近搜索時,查看的商品、點擊的商品、加購的商品以及成交的商品,這些操作的商品序列,引入到模型中。然后通過用戶畫像和用戶query特征向量,對用戶歷史操作序列做attention,就能夠從用戶操作序列中取出跟用戶當前搜索最相關的商品特征,來滿足用戶當前搜索的需求。
-
在商品側,也會引入商品特征。如商品title、商品目的地、商品類目等特征,作為商品的優(yōu)選,然后獲得一個向量。
-
在上層,我們采用剛剛提到的tensor fusion來進行特征融合,讓不同的特征更好的融合。
模型優(yōu)化:
在深度向量召回上,對文本的特征采用卷積模型進行抽取。這里并沒有采用卷積,而是采用了簡單的詞向量concat 方式。這是因為通過實驗驗證,使用卷積學到的文本特征比較強,整體的個性化效果比較弱,這不是我們希望見到的。所以我們采用了減弱文本特征的限制,突出個性化特征帶來的額外檢索效果。
最后,是我們對工作的思考總結:
1. Query & User Planer
現在我們還是叫QP,后續(xù)我們希望升級成Query & User Planer,能夠更多的融合用戶特征,增加更多的個性化搜索能力。
2. 可解釋性升級
我們希望對搜索的可解釋性進行升級,不是簡單的用文本或者深度向量直接進行召回。我們希望對用戶的意圖,進行更多維度、更細力度的理解,能夠直接理解成人類可讀的意圖。
另外,我們希望對用戶的行為做預測。因為用戶搜杭州時,可能根據歷史點擊推出來的商品也不能滿足用戶需求。我們后續(xù)希望對這類query,能夠預測出用戶想去的景點。當用戶搜酒店時,可以預測出用戶想去的目的地,更好的滿足用戶需求。
今天的分享就到這里,謝謝大家。
免責聲明:本文內容由21ic獲得授權后發(fā)布,版權歸原作者所有,本平臺僅提供信息存儲服務。文章僅代表作者個人觀點,不代表本平臺立場,如有問題,請聯系我們,謝謝!