123,123,123

[導讀]7月16日下午消息，科大訊飛發(fā)布非公開發(fā)行股票發(fā)行情況報告暨上市公告，共向十名投資者發(fā)行1.08億股新增股份，用于新一代感知及認知智能核心技術研發(fā)、智能語音人工智能開放平臺、銷售與服務體系升級建設等項

7月16日下午消息，科大訊飛發(fā)布非公開發(fā)行股票發(fā)行情況報告暨上市公告，共向十名投資者發(fā)行1.08億股新增股份，用于新一代感知及認知智能核心技術研發(fā)、智能語音人工智能開放平臺、銷售與服務體系升級建設等項目。

隨著現(xiàn)代生活水平的不斷提高，人們對于娛樂化的需求也越來越多樣性，計算機技術、圖像識別技術已逐步應用于日常生活中各個領域中，例如，可以在數(shù)以億萬計的人群中迅速定位目標人物，也可以根據(jù)人臉圖像判斷人臉表情信息。目前隨著音視頻內容的多樣性，音視頻壓縮技術的成熟，存儲技術的提高，出現(xiàn)了大量根據(jù)人臉圖像推薦音樂的應用，該應用將音樂與圖像以一種新的形式展現(xiàn)給用戶，受到了越來越多用戶的關注與喜愛。

其實早在15年7月30日，科大訊飛就申請了一項名為“一種基于人臉的音視頻推薦方法及系統(tǒng)”的發(fā)明專利（申請?zhí)枺?01510467751.9），申請人為科大訊飛股份有限公司。

根據(jù)目前公開的專利資料，讓我們一起來了解一下科大訊飛的這項音視頻推薦系統(tǒng)吧。

如上圖為音視頻推薦方法的流程圖，具體可以包括以下這些步驟。

首先，接收用戶發(fā)送的包含人臉的用戶圖像。這些用戶圖像可以是用戶使用移動終端設備拍攝的包含人臉的圖像。可以有：用戶的自拍照、朋友間的合照、家庭成員的全家福照片等。

其次，確定所述用戶圖像中人臉的數(shù)量，包括人臉檢測、人臉的局部特征點定位。可以預先收集大量包含人臉的用戶圖像，通過提取尺度不變特征轉換特征，訓練人臉與非人臉的分類模型，利用該模型對用戶圖像中的人臉進行檢測。在確定了用戶圖像中所有人臉所在的位置后，對該位置區(qū)域進行人臉特征點檢測，以確定人臉的局部特征點 ( 如眼睛、眉毛、鼻子、嘴巴、臉部外輪廓 ) 的位置。

接著，根據(jù)用戶圖像的人臉檢測、人臉的局部特征點定位結果，即可確定用戶圖像中人臉的數(shù)量。如果為一個，則執(zhí)行1）：

1）提取包含單個人臉用戶圖像相關的特征信息：單個人臉特征提取主要包括根據(jù)單個人臉信息獲取用戶屬性相關信息( 如年齡、性別、是否化妝等信息 )、計算明星相似度、獲取用戶圖像的拍攝時間。

如果多于一個，則執(zhí)行2）：

2）提取包含多個人臉的圖像特征信息：對于包含多個人臉的用戶圖像，可以提取的圖像特征信息可以有：圖像整體氛圍、人臉親密度等。

如果不包含人臉，則不進行音視頻推薦或推薦預先設定的通用音視頻。

最后，根據(jù)提取的圖像特征信息確定向所述用戶推薦的音視頻，并將音視頻推薦給所述用戶。

了解了科大訊飛的音視頻推薦方法后，大家是不是還是覺得很神奇，因為這樣的智能技術距離人們的生活還存在一定的距離，還需要產品的落地。不過想想音箱能夠看著你就能夠播放出你喜歡的音樂，真是一件令人激動的事情，讓我們期待這樣的產品的到來！