科大訊飛將為你“量身”播放音樂
7月16日下午消息,科大訊飛發(fā)布非公開發(fā)行股票發(fā)行情況報告暨上市公告,共向十名投資者發(fā)行1.08億股新增股份,用于新一代感知及認知智能核心技術研發(fā)、智能語音人工智能開放平臺、銷售與服務體系升級建設等項目。
隨著現(xiàn)代生活水平的不斷提高,人們對于娛樂化的需求也越來越多樣性,計算機技術、圖像識別技術已逐步應用于日常生活中各個領域中,例如,可以在數(shù)以億萬計的人群中迅速定位目標人物,也可以根據(jù)人臉圖像判斷人臉表情信息。目前隨著音視頻內容的多樣性,音視頻壓縮技術的成熟,存儲技術的提高,出現(xiàn)了大量根據(jù)人臉圖像推薦音樂的應用,該應用將音樂與圖像以一種新的形式展現(xiàn)給用戶,受到了越來越多用戶的關注與喜愛。
其實早在15年7月30日,科大訊飛就申請了一項名為“一種基于人臉的音視頻推薦方法及系統(tǒng)”的發(fā)明專利(申請?zhí)枺?01510467751.9),申請人為科大訊飛股份有限公司。
根據(jù)目前公開的專利資料,讓我們一起來了解一下科大訊飛的這項音視頻推薦系統(tǒng)吧。
如上圖為音視頻推薦方法的流程圖,具體可以包括以下這些步驟。
首先,接收用戶發(fā)送的包含人臉的用戶圖像。這些用戶圖像可以是用戶使用移動終端設備拍攝的包含人臉的圖像。可以有:用戶的自拍照、朋友間的合照、家庭成員的全家福照片等。
其次,確定所述用戶圖像中人臉的數(shù)量,包括人臉檢測、人臉的局部特征點定位。可以預先收集大量包含人臉的用戶圖像,通過提取尺度不變特征轉換特征,訓練人臉與非人臉的分類模型,利用該模型對用戶圖像中的人臉進行檢測。在確定了用戶圖像中所有人臉所在的位置后,對該位置區(qū)域進行人臉特征點檢測,以確定人臉的局部特征點 ( 如眼睛、眉毛、鼻子、嘴巴、臉部外輪廓 ) 的位置。
接著,根據(jù)用戶圖像的人臉檢測、人臉的局部特征點定位結果,即可確定用戶圖像中人臉的數(shù)量。如果為一個,則執(zhí)行1):
1)提取包含單個人臉用戶圖像相關的特征信息:單個人臉特征提取主要包括根據(jù)單個人臉信息獲取用戶屬性相關信息( 如年齡、性別、是否化妝等信息 )、計算明星相似度、獲取用戶圖像的拍攝時間。
如果多于一個,則執(zhí)行2):
2)提取包含多個人臉的圖像特征信息:對于包含多個人臉的用戶圖像,可以提取的圖像特征信息可以有 :圖像整體氛圍、人臉親密度等。
如果不包含人臉,則不進行音視頻推薦或推薦預先設定的通用音視頻。
最后,根據(jù)提取的圖像特征信息確定向所述用戶推薦的音視頻,并將音視頻推薦給所述用戶。
了解了科大訊飛的音視頻推薦方法后,大家是不是還是覺得很神奇,因為這樣的智能技術距離人們的生活還存在一定的距離,還需要產品的落地。不過想想音箱能夠看著你就能夠播放出你喜歡的音樂,真是一件令人激動的事情,讓我們期待這樣的產品的到來!