(文章來源:未來科技視角)
隨著技術的發(fā)展,語音識別越來越滲透到我們的日常生活中,包括亞馬遜的Alexa、Apple的Siri、Microsoft的Corana或Google的許多語音響應特征從我們的電話、電腦、手表乃至冰箱中,我們生活的每一個新的語音互動設備都會加深我們對人工智能(AI)和機器學習的依賴人工智能和機器學習人工智能是約翰·麥卡錫于1956年首次提出的。
在最初用于分析和快速計算數(shù)據(jù)的地方,人工智能現(xiàn)在允許計算機執(zhí)行通常僅由人類執(zhí)行的任務。機器學習是人工智能的一個子集,是指一個自學系統(tǒng)。
它涉及到教授計算機識別模式,而不是使用特定的規(guī)則對其進行編程。訓練過程包括向算法提供大量數(shù)據(jù),并從數(shù)據(jù)中學習和識別數(shù)據(jù)。在早期,程序員必須為他們想要識別的每一個對象(如人和狗)編寫代碼;現(xiàn)在,系統(tǒng)可以通過向每個系統(tǒng)顯示許多實例來識別兩者。隨著時間的推移,這些系統(tǒng)將變得更加智能化,無需人工干預機器學習有許多不同的技術和方法這些方法之一是人工神經(jīng)網(wǎng)絡,其一個例子是產品推薦。
電子商務公司通常使用人工神經(jīng)網(wǎng)絡來展示用戶更有可能購買的產品他們可以從所有用戶的瀏覽體驗中提取數(shù)據(jù),并使用這些信息提供有效的產品推薦。Rv的自動轉錄是由自動語音識別(ASR)和自然語言處理(NLP)驅動的。ASR將口語單詞轉換為文本,而NLP處理文本以獲得其含義。
由于人類經(jīng)常用口語體、短小和初始語說話,因此需要大量的計算機分析自然語言,才能產生準確的轉錄。語音識別技術的挑戰(zhàn)正面臨著許多挑戰(zhàn)但范圍縮小了這些包括克服低劣的錄音設備、背景噪音、難以理解的口音和方言,以及人們聲音的變化。
教機器學習人類的口語閱讀能力還沒有達到完美。傾聽并理解一個人所說的遠比聽到一個人的話更重要。作為一個人,我們通過人的眼睛、面部表情、肢體語言、語調和語調來解釋話語的意義。另一種發(fā)音的Nuance是人類傾向于縮短某些短語(例如,"我不知道"變成"我不知道")這種人工傾向對語音識別中的機器學習構成了另一個挑戰(zhàn)。機器學習聽口音、情緒和曲率,但仍有很長的路要走隨著技術越來越復雜并且特定的算法使用更多的數(shù)據(jù),這些挑戰(zhàn)正在迅速克服隨著人工智能的發(fā)展和機器學習所需的大量語音數(shù)據(jù)的容易挖掘,它成為下一個重要的交互界面也就不足為奇了。