阿里飛豬搜索技術的應用與創(chuàng)新

時間：2021-02-07 15:59:01

關鍵字：阿里飛豬搜索技術

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀]旅行場景的搜索起初是為了滿足用戶某種特定的強需求而出現的，如機票、火車票、酒店等搜索。

分享嘉賓：林睿阿里飛豬

編輯整理：杜正海、Hoh

出品平臺：DataFunTalk

導讀：旅行場景的搜索起初是為了滿足用戶某種特定的強需求而出現的，如機票、火車票、酒店等搜索。這些需求有著各自不同的特點，傳統(tǒng)的旅行搜索往往會對不同業(yè)務進行定制化搜索策略。隨著人工智能技術的不斷發(fā)展，用戶對產品的易用性提出了更高的要求。旅行場景的搜索逐漸發(fā)展為一個擁有旅行定制搜索策略的全文檢索引擎。本文將為大家介紹阿里飛豬在旅行場景下搜索技術的應用與創(chuàng)新，主要內容包括：

豬搜背景
基礎建設
召回策略
思考總結

豬搜背景

1. 飛豬搜索

阿里飛豬搜索技術的應用與創(chuàng)新

飛豬搜索業(yè)務分為兩大部分：一是全局搜索，二是行業(yè)小搜。右邊飛豬界面的全局搜索就是最上方的輸入框。直接對應飛豬內部所有內容的搜索入口，都可以從全局搜索獲得。右圖中間部分就是產業(yè)小搜的垂直入口。比如搜索酒店機票和旅游度假產品，一般用戶會使用行業(yè)小搜，垂直搜索需求。隨著飛豬業(yè)務的發(fā)展，以及用戶需求的變化，流量會從行業(yè)小搜逐漸遷移到飛豬的全局搜索上。主要是因為：

旅游行業(yè)是一個跨類目的需求。用戶天然的需要定機票、酒店以及一些網絡的門票，如果全部通過垂直搜索，需要進行多次點擊，對用戶來說不是很方便。
飛豬很多流量是由手淘引流過來的，手淘是一個全局的搜索。所以用戶會習慣性的使用全局搜索來滿足他的需求。
對用戶來說，用全局搜索的操作是最方便的，路徑最短。

2. 豬搜框架

阿里飛豬搜索技術的應用與創(chuàng)新

豬搜框架如圖所示，首先通過調用QP來獲得當前的Query理解，以及需要召回的Query生成，然后通過SP分頁服務調用HA3倒排索引來獲取召回的結果。通過粗排序和加權排序將結果通過LTP服務做重排序，最后將得到的結果展示給用戶。這里主要介紹下QP的工作。

3. QP

阿里飛豬搜索技術的應用與創(chuàng)新

QP即Query理解與召回生成服務。在這個服務中，我們面臨的挑戰(zhàn)主要有：

性能限制：在業(yè)界，通常QP階段只占用整個線上響應時間的1/10。所以，對性能要求比較高，響應時間不能過長，需要提供良好的線上服務體驗。
文本理解：我們的QP和其他的全局搜索QP一樣，也需要做傳統(tǒng)的文本理解，提供文本相關性的能力。
獨有挑戰(zhàn)：在旅行場景下，會有一些特殊的要求。比如LBS與POI的理解能力，能夠提供空間上的相關性。
特征理解：從業(yè)務發(fā)展角度，我們還需要用戶特征的理解，可以提供個性化的相關性，來滿足用戶的需求。

基礎建設

接下來，為大家介紹下飛豬在具體基礎建設上的一些工作。

1. Query tagging

阿里飛豬搜索技術的應用與創(chuàng)新

Tagging是QP中的一個基礎任務。負責的功能是把一個query 打出目的地和意圖。舉個例子，“北京自由行”中“北京”就是用戶的目的地，“自由行”是用戶的意圖需求，可以看出用戶希望的是一個自由行的商品，而不是跟團游這類的產品，可能會更希望獲得一些機票+酒店或者是無購物的產品。

這里的工作，主要分為以下幾層：

數據層：通過離線挖掘出tagging詞庫。
算法層：通過Tag消歧、CRF等算法進行在線打標工作。
應用層：在tagging上的一些應用，如query丟詞和query改寫。

由于線上性能的限制，我們主要依賴于離線的挖掘。這里以我們內部比較重要的商品POI挖掘為例，來介紹下我們離線挖掘tagging 的工作。

2. 商品POI挖掘

① QueryTagging

阿里飛豬搜索技術的應用與創(chuàng)新

POI的挖掘除了商品title 可能會有一些景點信息外，詳情也會包含大量的信息。因此，我們需要從這些內容中挖掘出有價值的信息，來擴充詞表。例如圖中的景點POI，可以用作索引參與召回，但是詳情是非結構化的HTML文本，要挖掘POI實體，會有比較大的難度。

② 建模方式

阿里飛豬搜索技術的應用與創(chuàng)新

我們采用了典型的序列標注問題來解決這個問題。我們通過一些特征，如詞特征、數字特征、類目特征，進行篩選，通過人工標注來訓練我們的CRF++模型。后續(xù)我們還升級成了Template下的模型來訓練NER模型，使我們可以在離線，對接了大量的文本數據，進行序列標注。最終，我們達到了99%以上的準確率，召回率也超過95%。擴充了大量的沒有挖掘出POI商品/POI特征的度假商品，使它們產生了POI的特征，可以更好地為后續(xù)的POI及檢索做出服務。

3. 同義詞挖掘

阿里飛豬搜索技術的應用與創(chuàng)新

在旅行行業(yè)，存在四種類型的同義詞：

翻譯類：如“迪斯尼”，可能有不同的中文描述方式
中英文詞：有的用戶用英文來描述，而有的用戶用中文來表述，但是商家描述的title是英文
包含關系：比如“普吉”和“普吉島”，可能“普吉”這個POI是“普吉島”這個大POI下的子POI
錯別字：比如“國色天香”，在圖中應該是“國色天鄉(xiāng)”

我們希望可以用一個通用的模型來解決這種同義詞關系。

阿里飛豬搜索技術的應用與創(chuàng)新

我們的辦法是基于用戶點擊行為，拼接query和商品title，使得query和title中的詞形成上下文，然后基于word2vec的skip-gram模型，得到每個詞的詞向量，并基于語義相似性，產生每個詞top 20的候選，同時將問題轉換為二分類問題。

另外，在特征工程上，我們會利用中英文的編輯距離、共現數目以及是否包含關系、余弦相似度等來構建特征。

然后，我們通過人工標注來構建正樣本，負樣本按照編輯距離倒排隨機采樣，使用LR模型和XGBoost對標注好的樣本進行二分類。

最后，我們還會經過一層人工審核，因為同義詞的影響面積比較大，如果直接通過算法挖掘，在線上的效果可能不會特別好。所以我們沒有采用復雜的模型，只是夠用就可以了。這樣在萬級別的人工標注上，我們的準確率可以達到94%。

4. 糾錯

阿里飛豬搜索技術的應用與創(chuàng)新

① 背景

對于糾錯，剛才提到了詞級別的錯誤，事實上，整個Query中也會出現一些錯誤。只用詞級別的糾錯，不能滿足用戶需求，需要一個全query糾錯邏輯。

由于QP階段對性能要求很高，現在業(yè)界常用的seq2seq方法，雖然效果很好，但整體性能不達標。我們可以在離線利用seq2seq來挖掘高頻的信息，但在線上很難應用seq2seq的方法來做糾錯。

② 方案

我們的方案是采用傳統(tǒng)的隱馬爾科夫模型，基于統(tǒng)計的方式來做，能夠達到線上的性能要求。將錯誤分為同音字與形近字，可以獲得比較強的可解釋性。

同音字：因為漢字都可以查到拼音碼表，我們可以很容易的構建一個同音字的集合，然后通過一些統(tǒng)計的方式，就能獲得同音詞生成概率。
形近字：比較難獲得，因為很難判斷兩個字是否有些相似。我們這里，通過字體圖像和字體結構來解決的。

阿里飛豬搜索技術的應用與創(chuàng)新

③ 基于圖像

說到基于圖像的方式，最直接的方式就是基于CNN圖像網絡的匹配算法。但是出于性能方面的考慮，這種方法的效果往往達不到我們的性能要求，所以我們采用了一個比較簡單且有效的方法，就是我們直接對兩個可能形近的字的圖像進行計算。對形近字而言，我們在標準的字體庫中，發(fā)現它有兩個特點：

如鳥和烏兩個字，在字體庫里的圖直接對比，它們的重合度是非常高的，由于字體庫里的字，它的標準化程度是很高的，可以通過這種方式來進行計算。我們這里基于圖像的方式，就是采用我們對字體庫里的兩個字來進行每個點的一個具體的計算。

另外，對于鳥和烏這個字，鳥這個字的每一個點在烏字上找到和它最近的一個點，作為這兩個點相似度，那對于每一個點，我們都可以找到一個距離，然后通過求和的均值計算，我們就可以得到這個兩個字距離的相似度。

通過離線對兩個字以各自的圖像進行計算，那就可以獲得比較相似的一些字。

④ 基于字體結構

另外，我們還會通過字體結構的方式來進行計算。像倉頡、鄭碼、四角號碼的編碼，是基于這個字的情況來做的編碼。對于倆個形近字，它們的倉頡碼、鄭碼、四角號碼往往也會比較相似。所以，我們通過序列的相似計算，可以獲得這兩個形近字的相似度，然后通過相似度進行閾值計算，就可以得到字形相似的集合。

召回策略

接下來為大家介紹下飛豬在召回策略上的一些技術：

阿里飛豬搜索技術的應用與創(chuàng)新

航旅召回跟常用的搜索召回有相似的地方，也有不同，面臨的挑戰(zhàn)主要有：

用戶query和商品描述之間存在GAP
航旅商品僅百萬級，而且城市分割，很容易造成無結果
召回優(yōu)化時，很容易導致誤召回
旅行是低頻行為，用戶行為稀疏，算法樣本較少

鑒于這種情況，我們對用戶的召回分成了以下四種召回方式：經典召回（同義詞挖掘、相似query改寫、商品POI挖掘）、LBS召回、向量召回、個性化召回（I2I&U2I以及向量模型），來滿足用戶的需求。

1. 經典召回

阿里飛豬搜索技術的應用與創(chuàng)新

剛剛已經介紹過同義詞挖掘和商品POI挖掘，這里主要介紹下相似query改寫。以“上海迪士尼樂園門票”為例，其實標準的商品是“上海迪士尼度假區(qū)”，而“黃山風景區(qū)”的標準商品其實是“黃山”。在這樣的情況下，如果我們直接創(chuàng)建搜索，可能召回的效果比較差。因而，我們會進行一些相似query挖掘，來滿足這種query和title GAP的情況。

Learning To Rewrite：

阿里飛豬搜索技術的應用與創(chuàng)新

我們思路是使用多路改寫產生候選集合，然后用learning to Rank 選取top K結果。

首先假設用戶在篩選中輸入了query，這個query是比較相似的。因為用戶在篩選中是想要獲得他想要的結果。如果用戶第一個query，沒有得到想要的結果，用戶會進行一些改寫。就相當于用戶幫助我們完成了一次改寫，我們從中可以學到用戶改寫的信息。這里我們是用類似word2vec的模型實現的。

另外，從query相似度來看，我從文本上也可以獲得一個相似的query文本。這里我們采用的是doc2vec模型，來獲得文本相似性。

最后，通過query和title點擊，可以訓練一個雙塔結構的語義相似度模型，來獲得query和title相似性的特征。

通過這三種方式，我們可以獲得想要的相似query改寫的候選。

對于候選，通過一些人工標注及線上的埋點信息，來獲得原query和候選query相似的標注。這樣我們就可以訓練一個模型來進行相似query的排序工作。

最終，我們線上使用的模型是PS-SMART 模型。加上規(guī)則過濾之后，準確率可以達到99%?？梢杂绊懢€上36%的PV，對一次UV的無結果率可以相對降低18%。

2. 航旅特色召回：LBS召回

阿里飛豬搜索技術的應用與創(chuàng)新

由于用戶是在旅行場景下搜索，用戶天然會需要LBS 相關的信息。如果是差旅用戶，可能會定阿里巴巴園區(qū)附近的酒店，如果是旅游用戶，可能會定黃山風景區(qū)附近的酒店。這就需要識別用戶想要的商品大概在什么樣的LBS范圍內。解決的方法是通過對query中用戶POI的識別，獲取用戶的經緯度，進行召回上的限制。

建模過程：

阿里飛豬搜索技術的應用與創(chuàng)新

首先會對query進行常規(guī)的分詞，然后在POI專用的倒排索引庫進行檢索，獲得候選POI。接下來對候選POI query進行特征計算，計算出文本相似性、embedding相似距離，以及用戶當前位置輸入后，與歷史點擊的商品地點的距離做特征。然后用特征構建模型算出一個分數，通過一定的閾值得到結果。

最后，我們的準確率可以達到95%，GMV和成交都得到了一定的提升。

3. 深度召回：向量召回

① 背景

阿里飛豬搜索技術的應用與創(chuàng)新

前面提到的都是一些簡單的文本召回，以及LBS召回等偏傳統(tǒng)的方法。前面說過，我們的商品按照目的地切換后，還是很稀疏，還會存在無召回的情況。對于這種情況，我們想到引入向量召回的方式進行補充召回。可以覆蓋改寫沒有的情況，可以召回一些原來不能召回的產品。

② 向量召回整體架構

阿里飛豬搜索技術的應用與創(chuàng)新

向量召回架構如上圖。在線通過對query 進行embedding。離線通過HA3引擎，把所有的item embedding存儲到HA3引擎中。最后，SP通過從QP獲得query embedding，進行HA3檢索，獲得需要的商品。

③ 模型結構

阿里飛豬搜索技術的應用與創(chuàng)新

模型結構，如上所示：

query側：通過對query的文本，進行卷積層特征抽取。
商品側：我們主要的工作在這里，除了文本上對用戶目的地的需求，對商品類目的需求也是比較關注的。所以在商品特征上，使用了商品title文本的卷積特征，以及目的地類目id 的特征。

對這三個特征，我們沒有使用簡單的concat，而是使用了tensor fusion進行三個向量的外積，可以讓特征更好的融合。

最后，通過全鏈接層進行特征抽取，計算向量內積。

對于損失函數，我們使用的large margin loss。對于學的足夠充分的case ，就丟棄掉，不再進行學習，讓模型更快的達到我們想要的效果。

④ 樣本選擇

阿里飛豬搜索技術的應用與創(chuàng)新

在樣本選擇上，我們對正負樣本也做了一些探索。

集團內通用的方法：

正樣本：query下用戶點擊的商品
負樣本：未點擊的商品

這樣的方法更適合在排序上使用，而不太適合召回。以左圖為例，用戶點擊了“上海迪士尼度假區(qū)”，未點擊的是下面的商品，雖然可能是由于商品的標題標準化比較低，用戶未點擊，但不能說它是不相關的商品。

我們的方法：

正樣本：和集團一樣，使用點擊的商品
負樣本：隨機選取的樣本作為負樣本

使用隨機選擇有兩方面：一是在全量商品中，進行隨機選擇；二是在一個類目或者目的地下，進行隨機選擇。這樣可以提升訓練的難度，達到我們想要的效果。

⑤ 模型產出與使用方式

阿里飛豬搜索技術的應用與創(chuàng)新

最終產出的分數，也給排序使用了，作為排序的一個特征，取得了不錯的效果，可以排在第4位。另外，線上召回可以讓無結果率降低32.7%。同時，擴充了1.7倍的相似query。

4. 個性化召回

阿里飛豬搜索技術的應用與創(chuàng)新

為什么做個性化召回？

因為在旅行場景下，會存在一些泛需求搜索。比如搜杭州，我們會對杭州所有的商品和酒店進行召回。這樣大量的召回會給后面的排序造成很大的壓力，沒辦法根據用戶的query排出一個用戶想要的item。

另外，還有一種情況是用戶搜索的意圖不是很明確，可能會存在一些無結果的情況。對于這種情況，傳統(tǒng)的文本相似性、深度召回都無法召回的情況下，可以嘗試個性化的方式，給用戶推薦一些商品，直接展示在搜索結果中，提供補充，來提升用戶體驗。實踐證明，用戶也會對這類商品進行點擊和購買。

我們的方案有兩種方式：

引入推薦的召回結果，在此基礎上進行相關性粗排，得到個性化召回
構建了個性化專用的向量召回模型，來得到更好的個性化召回結果

阿里飛豬搜索技術的應用與創(chuàng)新

整體的方式是將召回池分為個性化召回和文本召回兩路：

個性化召回：通過推薦的重定向、i2i 、lbs2i以及屬性2i等方式，來獲得推薦召回結果。
文本相關性過濾：通過文本相關性的過濾（如關鍵詞命中和向量cos相似度），把推薦召回和當前用戶搜索query很不相關的item過濾掉，展現給用戶比較相關，也是通過用戶i2i擴展的結果。

個性化召回模型：

阿里飛豬搜索技術的應用與創(chuàng)新

在用戶側，通過用戶畫像屬性和用戶的query，進行特征抽取。另外，我們引入了用戶操作序列，來達到個性化目的。比如用戶最近搜索時，查看的商品、點擊的商品、加購的商品以及成交的商品，這些操作的商品序列，引入到模型中。然后通過用戶畫像和用戶query特征向量，對用戶歷史操作序列做attention，就能夠從用戶操作序列中取出跟用戶當前搜索最相關的商品特征，來滿足用戶當前搜索的需求。
在商品側，也會引入商品特征。如商品title、商品目的地、商品類目等特征，作為商品的優(yōu)選，然后獲得一個向量。
在上層，我們采用剛剛提到的tensor fusion來進行特征融合，讓不同的特征更好的融合。

模型優(yōu)化：

在深度向量召回上，對文本的特征采用卷積模型進行抽取。這里并沒有采用卷積，而是采用了簡單的詞向量concat 方式。這是因為通過實驗驗證，使用卷積學到的文本特征比較強，整體的個性化效果比較弱，這不是我們希望見到的。所以我們采用了減弱文本特征的限制，突出個性化特征帶來的額外檢索效果。

總結思考

阿里飛豬搜索技術的應用與創(chuàng)新

最后，是我們對工作的思考總結：

1. Query & User Planer

現在我們還是叫QP，后續(xù)我們希望升級成Query & User Planer，能夠更多的融合用戶特征，增加更多的個性化搜索能力。

2. 可解釋性升級

我們希望對搜索的可解釋性進行升級，不是簡單的用文本或者深度向量直接進行召回。我們希望對用戶的意圖，進行更多維度、更細力度的理解，能夠直接理解成人類可讀的意圖。

另外，我們希望對用戶的行為做預測。因為用戶搜杭州時，可能根據歷史點擊推出來的商品也不能滿足用戶需求。我們后續(xù)希望對這類query，能夠預測出用戶想去的景點。當用戶搜酒店時，可以預測出用戶想去的目的地，更好的滿足用戶需求。