當前位置:首頁 > 公眾號精選 > 架構師社區(qū)
[導讀]旅行場景的搜索起初是為了滿足用戶某種特定的強需求而出現的,如機票、火車票、酒店等搜索。


分享嘉賓:林睿 阿里飛豬

編輯整理:杜正海、Hoh

出品平臺:DataFunTalk

導讀:旅行場景的搜索起初是為了滿足用戶某種特定的強需求而出現的,如機票、火車票、酒店等搜索。這些需求有著各自不同的特點,傳統(tǒng)的旅行搜索往往會對不同業(yè)務進行定制化搜索策略。隨著人工智能技術的不斷發(fā)展,用戶對產品的易用性提出了更高的要求。旅行場景的搜索逐漸發(fā)展為一個擁有旅行定制搜索策略的全文檢索引擎。本文將為大家介紹阿里飛豬在旅行場景下搜索技術的應用與創(chuàng)新,主要內容包括:

  • 豬搜背景

  • 基礎建設

  • 召回策略

  • 思考總結

01
豬搜背景

1. 飛豬搜索

阿里飛豬搜索技術的應用與創(chuàng)新

飛豬搜索業(yè)務分為兩大部分:一是全局搜索,二是行業(yè)小搜。右邊飛豬界面的全局搜索就是最上方的輸入框。直接對應飛豬內部所有內容的搜索入口,都可以從全局搜索獲得。右圖中間部分就是產業(yè)小搜的垂直入口。比如搜索酒店機票和旅游度假產品,一般用戶會使用行業(yè)小搜,垂直搜索需求。隨著飛豬業(yè)務的發(fā)展,以及用戶需求的變化,流量會從行業(yè)小搜逐漸遷移到飛豬的全局搜索上。主要是因為:

  • 旅游行業(yè)是一個跨類目的需求。用戶天然的需要定機票、酒店以及一些網絡的門票,如果全部通過垂直搜索,需要進行多次點擊,對用戶來說不是很方便。

  • 飛豬很多流量是由手淘引流過來的,手淘是一個全局的搜索。所以用戶會習慣性的使用全局搜索來滿足他的需求。

  • 對用戶來說,用全局搜索的操作是最方便的,路徑最短。

2. 豬搜框架

阿里飛豬搜索技術的應用與創(chuàng)新

豬搜框架如圖所示,首先通過調用QP來獲得當前的Query理解,以及需要召回的Query生成,然后通過SP分頁服務調用HA3倒排索引來獲取召回的結果。通過粗排序和加權排序將結果通過LTP服務做重排序,最后將得到的結果展示給用戶。這里主要介紹下QP的工作。

3. QP

阿里飛豬搜索技術的應用與創(chuàng)新

QP即Query理解與召回生成服務。在這個服務中,我們面臨的挑戰(zhàn)主要有:

  • 性能限制:在業(yè)界,通常QP階段只占用整個線上響應時間的1/10。所以,對性能要求比較高,響應時間不能過長,需要提供良好的線上服務體驗。

  • 文本理解:我們的QP和其他的全局搜索QP一樣,也需要做傳統(tǒng)的文本理解,提供文本相關性的能力。

  • 獨有挑戰(zhàn):在旅行場景下,會有一些特殊的要求。比如LBS與POI的理解能力,能夠提供空間上的相關性。

  • 特征理解:從業(yè)務發(fā)展角度,我們還需要用戶特征的理解,可以提供個性化的相關性,來滿足用戶的需求。

02
基礎建設

接下來,為大家介紹下飛豬在具體基礎建設上的一些工作。

1. Query tagging

阿里飛豬搜索技術的應用與創(chuàng)新

Tagging是QP中的一個基礎任務。負責的功能是把一個query 打出目的地和意圖。舉個例子,“北京自由行”中“北京”就是用戶的目的地,“自由行”是用戶的意圖需求,可以看出用戶希望的是一個自由行的商品,而不是跟團游這類的產品,可能會更希望獲得一些機票+酒店或者是無購物的產品。

這里的工作,主要分為以下幾層:

  • 數據層:通過離線挖掘出tagging詞庫。

  • 算法層:通過Tag消歧、CRF等算法進行在線打標工作。

  • 應用層:在tagging上的一些應用,如query丟詞和query改寫。

由于線上性能的限制,我們主要依賴于離線的挖掘。這里以我們內部比較重要的商品POI挖掘為例,來介紹下我們離線挖掘tagging 的工作。

2. 商品POI挖掘

① QueryTagging

阿里飛豬搜索技術的應用與創(chuàng)新


POI的挖掘除了商品title 可能會有一些景點信息外,詳情也會包含大量的信息。因此,我們需要從這些內容中挖掘出有價值的信息,來擴充詞表。例如圖中的景點POI,可以用作索引參與召回,但是詳情是非結構化的HTML文本,要挖掘POI實體,會有比較大的難度。

② 建模方式

阿里飛豬搜索技術的應用與創(chuàng)新

我們采用了典型的序列標注問題來解決這個問題。我們通過一些特征,如詞特征、數字特征、類目特征,進行篩選,通過人工標注來訓練我們的CRF++模型。后續(xù)我們還升級成了Template下的模型來訓練NER模型,使我們可以在離線,對接了大量的文本數據,進行序列標注。最終,我們達到了99%以上的準確率,召回率也超過95%。擴充了大量的沒有挖掘出POI商品/POI特征的度假商品,使它們產生了POI的特征,可以更好地為后續(xù)的POI及檢索做出服務。

3. 同義詞挖掘

阿里飛豬搜索技術的應用與創(chuàng)新

在旅行行業(yè),存在四種類型的同義詞:

  • 翻譯類:如“迪斯尼”,可能有不同的中文描述方式

  • 中英文詞:有的用戶用英文來描述,而有的用戶用中文來表述,但是商家描述的title是英文

  • 包含關系:比如“普吉”和“普吉島”,可能“普吉”這個POI是“普吉島”這個大POI下的子POI

  • 錯別字:比如“國色天香”,在圖中應該是“國色天鄉(xiāng)”

我們希望可以用一個通用的模型來解決這種同義詞關系。

阿里飛豬搜索技術的應用與創(chuàng)新

我們的辦法是基于用戶點擊行為,拼接query和商品title,使得query和title中的詞形成上下文,然后基于word2vec的skip-gram模型,得到每個詞的詞向量,并基于語義相似性,產生每個詞top 20的候選,同時將問題轉換為二分類問題。

另外,在特征工程上,我們會利用中英文的編輯距離、共現數目以及是否包含關系、余弦相似度等來構建特征。

然后,我們通過人工標注來構建正樣本,負樣本按照編輯距離倒排隨機采樣,使用LR模型和XGBoost對標注好的樣本進行二分類。

最后,我們還會經過一層人工審核,因為同義詞的影響面積比較大,如果直接通過算法挖掘,在線上的效果可能不會特別好。所以我們沒有采用復雜的模型,只是夠用就可以了。這樣在萬級別的人工標注上,我們的準確率可以達到94%。

4. 糾錯

阿里飛豬搜索技術的應用與創(chuàng)新

① 背景

對于糾錯,剛才提到了詞級別的錯誤,事實上,整個Query中也會出現一些錯誤。只用詞級別的糾錯,不能滿足用戶需求,需要一個全query糾錯邏輯。

由于QP階段對性能要求很高,現在業(yè)界常用的seq2seq方法,雖然效果很好,但整體性能不達標。我們可以在離線利用seq2seq來挖掘高頻的信息,但在線上很難應用seq2seq的方法來做糾錯。

② 方案

我們的方案是采用傳統(tǒng)的隱馬爾科夫模型,基于統(tǒng)計的方式來做,能夠達到線上的性能要求。將錯誤分為同音字與形近字,可以獲得比較強的可解釋性。

  • 同音字:因為漢字都可以查到拼音碼表,我們可以很容易的構建一個同音字的集合,然后通過一些統(tǒng)計的方式,就能獲得同音詞生成概率。

  • 形近字:比較難獲得,因為很難判斷兩個字是否有些相似。我們這里,通過字體圖像和字體結構來解決的。

阿里飛豬搜索技術的應用與創(chuàng)新

③ 基于圖像

說到基于圖像的方式,最直接的方式就是基于CNN圖像網絡的匹配算法。但是出于性能方面的考慮,這種方法的效果往往達不到我們的性能要求,所以我們采用了一個比較簡單且有效的方法,就是我們直接對兩個可能形近的字的圖像進行計算。對形近字而言,我們在標準的字體庫中,發(fā)現它有兩個特點:

如鳥和烏兩個字,在字體庫里的圖直接對比,它們的重合度是非常高的,由于字體庫里的字,它的標準化程度是很高的,可以通過這種方式來進行計算。我們這里基于圖像的方式,就是采用我們對字體庫里的兩個字來進行每個點的一個具體的計算。

另外,對于鳥和烏這個字,鳥這個字的每一個點在烏字上找到和它最近的一個點,作為這兩個點相似度,那對于每一個點,我們都可以找到一個距離,然后通過求和的均值計算,我們就可以得到這個兩個字距離的相似度。

通過離線對兩個字以各自的圖像進行計算,那就可以獲得比較相似的一些字。

④ 基于字體結構

另外,我們還會通過字體結構的方式來進行計算。像倉頡、鄭碼、四角號碼的編碼,是基于這個字的情況來做的編碼。對于倆個形近字,它們的倉頡碼、鄭碼、四角號碼往往也會比較相似。所以,我們通過序列的相似計算,可以獲得這兩個形近字的相似度,然后通過相似度進行閾值計算,就可以得到字形相似的集合。

03
召回策略

接下來為大家介紹下飛豬在召回策略上的一些技術:

阿里飛豬搜索技術的應用與創(chuàng)新

航旅召回跟常用的搜索召回有相似的地方,也有不同,面臨的挑戰(zhàn)主要有:

  • 用戶query和商品描述之間存在GAP

  • 航旅商品僅百萬級,而且城市分割,很容易造成無結果

  • 召回優(yōu)化時,很容易導致誤召回

  • 旅行是低頻行為,用戶行為稀疏,算法樣本較少

鑒于這種情況,我們對用戶的召回分成了以下四種召回方式:經典召回(同義詞挖掘、相似query改寫、商品POI挖掘)、LBS召回、向量召回、個性化召回(I2I&U2I以及向量模型),來滿足用戶的需求。

1. 經典召回

阿里飛豬搜索技術的應用與創(chuàng)新

剛剛已經介紹過同義詞挖掘和商品POI挖掘,這里主要介紹下相似query改寫。以“上海迪士尼樂園門票”為例,其實標準的商品是“上海迪士尼度假區(qū)”,而“黃山風景區(qū)”的標準商品其實是“黃山”。在這樣的情況下,如果我們直接創(chuàng)建搜索,可能召回的效果比較差。因而,我們會進行一些相似query挖掘,來滿足這種query和title GAP的情況。

Learning To Rewrite:

阿里飛豬搜索技術的應用與創(chuàng)新

我們思路是使用多路改寫產生候選集合,然后用learning to Rank 選取top K結果。

首先假設用戶在篩選中輸入了query,這個query是比較相似的。因為用戶在篩選中是想要獲得他想要的結果。如果用戶第一個query,沒有得到想要的結果,用戶會進行一些改寫。就相當于用戶幫助我們完成了一次改寫,我們從中可以學到用戶改寫的信息。這里我們是用類似word2vec的模型實現的。

另外,從query相似度來看,我從文本上也可以獲得一個相似的query文本。這里我們采用的是doc2vec模型,來獲得文本相似性。

最后,通過query和title點擊,可以訓練一個雙塔結構的語義相似度模型,來獲得query和title相似性的特征。

通過這三種方式,我們可以獲得想要的相似query改寫的候選。

對于候選,通過一些人工標注及線上的埋點信息,來獲得原query和候選query相似的標注。這樣我們就可以訓練一個模型來進行相似query的排序工作。

最終,我們線上使用的模型是PS-SMART 模型。加上規(guī)則過濾之后,準確率可以達到99%??梢杂绊懢€上36%的PV,對一次UV的無結果率可以相對降低18%。

2. 航旅特色召回:LBS召回

阿里飛豬搜索技術的應用與創(chuàng)新


由于用戶是在旅行場景下搜索,用戶天然會需要LBS 相關的信息。如果是差旅用戶,可能會定阿里巴巴園區(qū)附近的酒店,如果是旅游用戶,可能會定黃山風景區(qū)附近的酒店。這就需要識別用戶想要的商品大概在什么樣的LBS范圍內。解決的方法是通過對query中用戶POI的識別,獲取用戶的經緯度,進行召回上的限制。

建模過程:

阿里飛豬搜索技術的應用與創(chuàng)新

首先會對query進行常規(guī)的分詞,然后在POI專用的倒排索引庫進行檢索,獲得候選POI。接下來對候選POI query進行特征計算,計算出文本相似性、embedding相似距離,以及用戶當前位置輸入后,與歷史點擊的商品地點的距離做特征。然后用特征構建模型算出一個分數,通過一定的閾值得到結果。

最后,我們的準確率可以達到95%,GMV和成交都得到了一定的提升。

3. 深度召回:向量召回

① 背景

阿里飛豬搜索技術的應用與創(chuàng)新

前面提到的都是一些簡單的文本召回,以及LBS召回等偏傳統(tǒng)的方法。前面說過,我們的商品按照目的地切換后,還是很稀疏,還會存在無召回的情況。對于這種情況,我們想到引入向量召回的方式進行補充召回。可以覆蓋改寫沒有的情況,可以召回一些原來不能召回的產品。

② 向量召回整體架構

阿里飛豬搜索技術的應用與創(chuàng)新

向量召回架構如上圖。在線通過對query 進行embedding。離線通過HA3引擎,把所有的item embedding存儲到HA3引擎中。最后,SP通過從QP獲得query embedding,進行HA3檢索,獲得需要的商品。

③ 模型結構

阿里飛豬搜索技術的應用與創(chuàng)新

模型結構,如上所示:

  • query側:通過對query的文本,進行卷積層特征抽取。

  • 商品側:我們主要的工作在這里,除了文本上對用戶目的地的需求,對商品類目的需求也是比較關注的。所以在商品特征上,使用了商品title文本的卷積特征,以及目的地類目id 的特征。

對這三個特征,我們沒有使用簡單的concat,而是使用了tensor fusion進行三個向量的外積,可以讓特征更好的融合。

最后,通過全鏈接層進行特征抽取,計算向量內積。

對于損失函數,我們使用的large margin loss。對于學的足夠充分的case ,就丟棄掉,不再進行學習,讓模型更快的達到我們想要的效果。

④ 樣本選擇

阿里飛豬搜索技術的應用與創(chuàng)新

在樣本選擇上,我們對正負樣本也做了一些探索。

集團內通用的方法:

  • 正樣本:query下用戶點擊的商品

  • 負樣本:未點擊的商品

這樣的方法更適合在排序上使用,而不太適合召回。以左圖為例,用戶點擊了“上海迪士尼度假區(qū)”,未點擊的是下面的商品,雖然可能是由于商品的標題標準化比較低,用戶未點擊,但不能說它是不相關的商品。

我們的方法:

  • 正樣本:和集團一樣,使用點擊的商品

  • 負樣本:隨機選取的樣本作為負樣本

使用隨機選擇有兩方面:一是在全量商品中,進行隨機選擇;二是在一個類目或者目的地下,進行隨機選擇。這樣可以提升訓練的難度,達到我們想要的效果。

⑤ 模型產出與使用方式

阿里飛豬搜索技術的應用與創(chuàng)新

最終產出的分數,也給排序使用了,作為排序的一個特征,取得了不錯的效果,可以排在第4位。另外,線上召回可以讓無結果率降低32.7%。同時,擴充了1.7倍的相似query。

4. 個性化召回

阿里飛豬搜索技術的應用與創(chuàng)新

為什么做個性化召回?

因為在旅行場景下,會存在一些泛需求搜索。比如搜杭州,我們會對杭州所有的商品和酒店進行召回。這樣大量的召回會給后面的排序造成很大的壓力,沒辦法根據用戶的query排出一個用戶想要的item。

另外,還有一種情況是用戶搜索的意圖不是很明確,可能會存在一些無結果的情況。對于這種情況,傳統(tǒng)的文本相似性、深度召回都無法召回的情況下,可以嘗試個性化的方式,給用戶推薦一些商品,直接展示在搜索結果中,提供補充,來提升用戶體驗。實踐證明,用戶也會對這類商品進行點擊和購買。

我們的方案有兩種方式:

  • 引入推薦的召回結果,在此基礎上進行相關性粗排,得到個性化召回

  • 構建了個性化專用的向量召回模型,來得到更好的個性化召回結果

阿里飛豬搜索技術的應用與創(chuàng)新

整體的方式是將召回池分為個性化召回和文本召回兩路:

  • 個性化召回:通過推薦的重定向、i2i 、lbs2i以及屬性2i等方式,來獲得推薦召回結果。

  • 文本相關性過濾:通過文本相關性的過濾(如關鍵詞命中和向量cos相似度),把推薦召回和當前用戶搜索query很不相關的item過濾掉,展現給用戶比較相關,也是通過用戶i2i擴展的結果。

個性化召回模型:

阿里飛豬搜索技術的應用與創(chuàng)新

  • 在用戶側,通過用戶畫像屬性和用戶的query,進行特征抽取。另外,我們引入了用戶操作序列,來達到個性化目的。比如用戶最近搜索時,查看的商品、點擊的商品、加購的商品以及成交的商品,這些操作的商品序列,引入到模型中。然后通過用戶畫像和用戶query特征向量,對用戶歷史操作序列做attention,就能夠從用戶操作序列中取出跟用戶當前搜索最相關的商品特征,來滿足用戶當前搜索的需求。

  • 在商品側,也會引入商品特征。如商品title、商品目的地、商品類目等特征,作為商品的優(yōu)選,然后獲得一個向量。

  • 在上層,我們采用剛剛提到的tensor fusion來進行特征融合,讓不同的特征更好的融合。

模型優(yōu)化:

在深度向量召回上,對文本的特征采用卷積模型進行抽取。這里并沒有采用卷積,而是采用了簡單的詞向量concat 方式。這是因為通過實驗驗證,使用卷積學到的文本特征比較強,整體的個性化效果比較弱,這不是我們希望見到的。所以我們采用了減弱文本特征的限制,突出個性化特征帶來的額外檢索效果。

04
總結思考

阿里飛豬搜索技術的應用與創(chuàng)新

最后,是我們對工作的思考總結:

1. Query & User Planer

現在我們還是叫QP,后續(xù)我們希望升級成Query & User Planer,能夠更多的融合用戶特征,增加更多的個性化搜索能力。

2. 可解釋性升級

我們希望對搜索的可解釋性進行升級,不是簡單的用文本或者深度向量直接進行召回。我們希望對用戶的意圖,進行更多維度、更細力度的理解,能夠直接理解成人類可讀的意圖。

另外我們希望對用戶的行為做預測。因為用戶杭州時,可能根據歷史點擊推出來的商品也不能滿足用戶需求。我們后續(xù)希望對這類query,能夠預測出用戶想去的景點。當用戶搜酒店時,可以預測出用戶想去的目的地,更好的滿足用戶需求。

今天的分享就到這里,謝謝大家。



免責聲明:本文內容由21ic獲得授權后發(fā)布,版權歸原作者所有,本平臺僅提供信息存儲服務。文章僅代表作者個人觀點,不代表本平臺立場,如有問題,請聯系我們,謝謝!

本站聲明: 本文章由作者或相關機構授權發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內容真實性等。需要轉載請聯系該專欄作者,如若文章內容侵犯您的權益,請及時聯系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或將催生出更大的獨角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數字化轉型技術解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關鍵字: AWS AN BSP 數字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術公司SODA.Auto推出其旗艦產品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關鍵字: 汽車 人工智能 智能驅動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務中斷的風險,如企業(yè)系統(tǒng)復雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務連續(xù)性,提升韌性,成...

關鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據媒體報道,騰訊和網易近期正在縮減他們對日本游戲市場的投資。

關鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數據產業(yè)博覽會開幕式在貴陽舉行,華為董事、質量流程IT總裁陶景文發(fā)表了演講。

關鍵字: 華為 12nm EDA 半導體

8月28日消息,在2024中國國際大數據產業(yè)博覽會上,華為常務董事、華為云CEO張平安發(fā)表演講稱,數字世界的話語權最終是由生態(tài)的繁榮決定的。

關鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應對環(huán)境變化,經營業(yè)績穩(wěn)中有升 落實提質增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務引領增長 以科技創(chuàng)新為引領,提升企業(yè)核心競爭力 堅持高質量發(fā)展策略,塑強核心競爭優(yōu)勢...

關鍵字: 通信 BSP 電信運營商 數字經濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術學會聯合牽頭組建的NVI技術創(chuàng)新聯盟在BIRTV2024超高清全產業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現場 NVI技術創(chuàng)新聯...

關鍵字: VI 傳輸協議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯合招商會上,軟通動力信息技術(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關鍵字: BSP 信息技術
關閉
關閉