有理由相信2007年將是最后突破可視電話進入大眾市場障礙的一年。做出這樣預(yù)測是基于以下的因素:寬帶在家庭中廣泛采用,現(xiàn)在在亞洲、歐洲和北美的某些區(qū)域滲透率超過50%;摩爾定律不斷地向前推動處理器處理能力的發(fā)展,使得處理器能支持復(fù)雜運算的媒體處理算法,這些算法是實現(xiàn)可靠、高質(zhì)量的全運動視頻所需要的;電池技術(shù)以及電源管理的發(fā)展使得基于Wi-Fi的設(shè)備的待機時間和通話時間可以分別用天和小時來計算,而不是分鐘;最后一點值得注意的是,產(chǎn)業(yè)標準的不斷成熟以及基于IP越來越成熟的語音和視頻軟件解決方案(簡稱為V2IP)使得這些得以實現(xiàn)。
盡管可視電話發(fā)展時間很久,價格和性能依然是提供大眾市場解決方案的絆腳石。即使我們從模擬可視電話轉(zhuǎn)換到數(shù)字IP,有限的網(wǎng)絡(luò)和缺乏處理能力導(dǎo)致的性價比依然不能適合于大眾市場。隨著有線和無線網(wǎng)絡(luò)的普及,以及像飛思卡爾公司、瑞薩、TI和其他的芯片廠商提供的高性能的語音/視頻處理技術(shù),這些問題很快地得到了解決。因此,我們將關(guān)注點轉(zhuǎn)移到上面談到的第四點,即軟件。當與IP連接的設(shè)備不能正常工作時,我們可以將問題和關(guān)注點放在這種軟件解決方案上。并且在大多數(shù)情況下是能正常工作的。
基于IP軟件平臺的語音+視頻設(shè)計
無論是電話或任何個人通信和多媒體設(shè)備都必須提供具有吸引力、可靠的用戶體驗,才能成功地產(chǎn)生一個主流的市場。因此,無線傳輸?shù)馁|(zhì)量和可靠性對于Wi-Fi可視電話來說非常重要。慶幸的是,IEEE802.11無線局域網(wǎng)標準不斷地發(fā)展,在數(shù)據(jù)速率、范圍和安全性上不斷地改善,因此我們不再需要關(guān)心這個方面問題。
消費電子市場感受到真正穩(wěn)定可靠的VoIP產(chǎn)品的時間才剛過去18~24個月。然而,設(shè)計、開發(fā)和生產(chǎn)支持Wi-Fi的語音視頻(V2IP)電話需要大量的資源用于軟件開發(fā)、集成和確認。我們將整個解決方案劃分成四個關(guān)鍵部分,然后對每個部分進行研究:
1. 操作系統(tǒng)和硅片平臺;
2. 基于IP架構(gòu)的嵌入式語音+視頻;
3. 應(yīng)用服務(wù)層;
4. 圖形用戶界面(GUI)。
操作系統(tǒng)和芯片平臺
我們正在看到越來越多的制造商使用嵌入式Linux作為VoIP電話產(chǎn)品的基礎(chǔ)。其優(yōu)勢很多,包括開發(fā)者比較熟悉、豐富的軟件開發(fā)環(huán)境等,但是最重要的可能是能幫助制造商降低總的材料成本。有很多提供商(例如MontaVista)他們能提供非常穩(wěn)定、得到很好支持的,用于低功耗消費設(shè)備的Linux版本。
看看第一代可視電話所采用的架構(gòu),我們可以發(fā)現(xiàn)采用了不同的處理器分別用于語音、視頻和系統(tǒng)控制功能。因為處理需要,一般采用針對密集媒體處理運算(數(shù)字信號處理或DSP)優(yōu)化的處理器。例如:一個DSP用來處理語音處理功能,包括語音編碼/解碼、音調(diào)發(fā)生和檢測、回聲消除以及噪聲消減;一個DSP或?qū)S脜f(xié)處理器來處理視頻編碼和解碼;一個應(yīng)用處理器管理VoIP通話控制協(xié)議以及用戶界面(見圖1)。這種方式需要多個編程模型和開發(fā)工具鏈,這反過來會導(dǎo)致需要更大的開發(fā)團隊,增加培訓和額外的成本。
圖1:第一代的可視電話需要3個處理器。
自從第一代的IP可視電話推出以來,通用應(yīng)用處理器的處理能力已經(jīng)提高到能將所有通常用DSP實現(xiàn)的語音處理器任務(wù)由應(yīng)用處理器實現(xiàn)。特別對于Wi-Fi可視電話市場來說,這是一個非常重要的進步,因為無線連接的設(shè)備基本的需求是降低功耗,最大化電池壽命。
如果通過代碼匯編和手動軟件優(yōu)化,VoIP編解碼器(G.711、G.729AB、G.723.1、iLBC)、音頻處理(DTMF以及通話進行音調(diào)檢測/產(chǎn)生)語音質(zhì)量增強(線路和聲學回聲消除和抖動緩沖等)以及其他相似的功能現(xiàn)在都能有效地在應(yīng)用處理器上實現(xiàn)。越來越多的應(yīng)用處理器集成了硬件加速功能,我們可以利用硬件加速來處理視頻編碼和解碼(見圖2)。
圖2:設(shè)計可視電話的新范例
當今應(yīng)用處理器的處理能力的增加使得我們能使用先進的操作系統(tǒng)環(huán)境,例如嵌入式Linux來有效地將V2IP系統(tǒng)中需要的控制和媒體處理進行劃分。這反過來又使得使用單一處理器和工具鏈的軟件開發(fā)更加簡單,由于減少了一個或更多的昂貴DSP而降低了成本。
可視電話將利用下面的壓縮算法中的一種或幾種:H.263、H.264或MPEG-4。其中,在提供最低碼率、高質(zhì)量的實時視頻方面,H.264(也稱為MPEG-4 AVC)最優(yōu),其缺點是H.264需要比H.263更高的處理能力。在進入2007年后,具有足夠能力處理H.264的具有經(jīng)濟成本效益的處理器將很常見。
基于IP的嵌入式語音+視頻
V2IP設(shè)計的核心是嵌入式語音和視頻處理,以及控制和管理系統(tǒng)(架構(gòu))數(shù)據(jù)流的軟件單元。OEM和原始設(shè)計制造商(ODM)在開發(fā)V2IP架構(gòu)上有三種選擇:
1. 從零建立完整的V2IP軟件架構(gòu);
2. 獲得器件和軟件堆棧授權(quán),提供集成、確認、硅片移植和互用性測試;
3. 從第三方獲得預(yù)集成和經(jīng)驗證的第三方架構(gòu)。
除非IP和聯(lián)網(wǎng)軟件開發(fā)是你所在組織的核心優(yōu)勢,最快速、最低風險和最具成本效益的選擇是獲得第三方架構(gòu)的授權(quán)。高度優(yōu)化的解決方案將以能快速集成到終端產(chǎn)品設(shè)計中的形式出現(xiàn)。尋找到能提供所有的媒體處理算法和VoIP通話控制,并結(jié)合靈活架構(gòu)的技術(shù),能使終端產(chǎn)品開發(fā)商專注于設(shè)計一種高性能增值設(shè)備。因為IP流的實時特性,一個緊密集成的V2IP架構(gòu)對于確??煽?、穩(wěn)定的語音和視頻通信非常重要。從廣泛的媒體處理庫到一系列的服務(wù)質(zhì)量(QoS)以及聯(lián)網(wǎng)客戶,V2IP軟件架構(gòu)將最終決定語音/視頻通信的質(zhì)量和性能。
OEM應(yīng)該注意確保他們實現(xiàn)的是一個具有彈性的VoIP架構(gòu)。某種架構(gòu)需要具有在指定的媒體通道內(nèi),在運行中對適當?shù)腣oIP編解碼器進行選擇和配置,以及媒體處理單元動態(tài)配置。架構(gòu)及其相關(guān)的調(diào)度器(scheduler)組件必須確保對于指定通道定義所要求的所有算法在允許的時間段內(nèi)執(zhí)行。盡管在一個單通道系統(tǒng)中,這些算法的調(diào)度任務(wù)不過就是對適當算法按順序的一連串調(diào)用,而多通道系統(tǒng)提供了更復(fù)雜的情形,在這種情形下,每個通道可能要求不同的VoIP編解碼器,以及某些通道需要回聲消除而其他通道不需要??梢曤娫捦ǔJ菃瓮ǖ老到y(tǒng),盡管一般都可以支持3方音頻/視頻通話。
別說是設(shè)計Wi-Fi可視電話,就是設(shè)計當前一個VoIP電話也需要產(chǎn)品差異化,并支持下一代的業(yè)務(wù)和功能。傳統(tǒng)的VoIP電話提供了基本的“一般質(zhì)量”的語音編解碼器,例如G.711和使用H.263標準的視頻壓縮功能。在我們進一步討論之前,需要說明的是這些編解碼器都100%能實現(xiàn)個人視頻會議通話,并且已經(jīng)成功實現(xiàn)了多年。
然而,在當前的高保真和高分辨率的時代,要想獲得大眾的歡迎,下一代的可視電話必須支持寬帶的音頻和先進的視頻壓縮技術(shù)。像AMR-WB(G.722.2)音頻技術(shù)和H.264視頻壓縮技術(shù)都大大地改善了通信體驗,在雙方之間提供了一個更具現(xiàn)場感的通信。
除了寬帶、音頻和更高分辨率的視頻,還有很多技術(shù)能改善IP通信的可靠性、性能和語音及視頻質(zhì)量,使終端用戶受益。更進一步地,下面的特性需要更具競爭性的VoIP和V2IP解決方案。
音頻協(xié)議/語音質(zhì)量增強:
1. G.711、G.723、G.726、G.729AB、G.723.1、iLBC;
2. 音頻回放與記錄;
3. 帶本地音頻混合的三方通話;
4. G.168線路回聲消除;
5. 全雙工的聲學回聲消除(免提通話);
6. 特定國家的通話過程音調(diào)產(chǎn)生/檢測;
7. 通用的音調(diào)發(fā)生器;
8. 增益控制-自動和手動模式;
9. DTMF檢測/發(fā)生/中繼;
10. 8、16和24kHz的過/欠采樣。
視頻協(xié)議:1. H.263;2. MPEG-4簡單類;3. H.264;4. 視頻回放和記錄支持。
NAT穿越(Traversal):1. STUN客戶;2. TURN(STUN中繼)客戶;3. ICE。
高保真VoIP與多媒體支持:1. G.722.2(AMR-WB)編解碼;2. 寬帶AEC/AES;3. MP3解碼;4. SP-MIDI解碼;5. RTSP流媒體客戶。
應(yīng)用和GUI的無縫集成
一旦系統(tǒng)設(shè)計師選擇了一個性能強大的架構(gòu)來負責語音視頻處理、通話建立和NAT穿越,設(shè)計的關(guān)鍵就轉(zhuǎn)移到通過設(shè)計和實現(xiàn)用戶體驗來使產(chǎn)品與市場上其他V2IP設(shè)備進行差異化。
當前,用戶體驗是很多因素的反映,從用于構(gòu)建設(shè)備的關(guān)鍵組件的質(zhì)量(例如麥克風、喇叭、攝像機和顯示器的質(zhì)量)到難以量化的用戶界面的易用性。實時個人通信設(shè)備采用更好的顯示技術(shù),GUI對于用戶體驗來說越來越重要了。當前,即使最基本的VoIP電話也提供了全彩顯示GUI,并提供像活潑的菜單、通話者照片顯示和即時消息。
GUI與嵌入式V2IP架構(gòu)集成并不簡單。大多數(shù)開發(fā)者面臨的最大障礙在GUI和V2IP架構(gòu)中處理的類型本質(zhì)上不一樣:V2IP架構(gòu)著重于快速響應(yīng)、面向媒體的實時處理;GUI則反映迅速、面用用戶的事件驅(qū)動處理。
一個設(shè)計很好的V2IP架構(gòu)將提供一個強大的應(yīng)用編程接口(API),這個API需要很少的GUI交互作用。特別是,API通常只需對用戶或網(wǎng)絡(luò)產(chǎn)生的事件做出響應(yīng)。這種分割避免了不舒服的事件驅(qū)動和實時媒體處理單元的聯(lián)合,能實現(xiàn)簡單的集成,允許開發(fā)者專注于增值的直覺GUI開發(fā)。