1 引 言
視頻電話終端系統(tǒng)的實現(xiàn)是個很復雜的過程,涉及多方面知識。其目的是利用互聯(lián)網(wǎng)或固定電話網(wǎng)等為彼此通訊的雙方不但能提供實時的語音交流而且可以實現(xiàn)視頻信息的即時傳輸。由于豐富的視頻數(shù)據(jù)和網(wǎng)絡可用帶寬的矛盾,視頻電話的發(fā)展經(jīng)歷了漫長的發(fā)展過程,早在上世紀20年代就有人對他進行探索和研究。
SIP(Session initiation Protocol)[1]協(xié)議是IETF于1999年提出的一種新的網(wǎng)絡多媒體通信的交互信令,他相對于市場主體的H.323協(xié)議具有簡單、擴展性好、便于實現(xiàn)等優(yōu)點,但當構(gòu)建電信級的大網(wǎng)時也相當復雜,此協(xié)議也在不斷的補充和完善中[2]。目前市場上出現(xiàn)越來越多支持SIP的智能多媒體終端及相關軟件和軟交換設備,SIP將成為IP視頻電話業(yè)務的主流協(xié)議之一。
H.264視頻編碼標準[3]與其他視頻編碼標準如H.263,MPEG-4等相比,其更高的壓縮效率和網(wǎng)絡親和性的優(yōu)點正是視頻電話及其各種應用所需要的。
本文基于SIP協(xié)議、以H.264為視頻編碼標準、采用TI的高速數(shù)字信號處理芯片TMS320DM643和三星的ARM9芯片S3C2410為主體設計并實現(xiàn)了一款視頻電話終端。
2視頻電話終端的硬件系統(tǒng)設計
視頻電話終端依據(jù)其使用方式的不同,大體上可分為"PC到PC"型和"電話到電話"型2大類。"PC到PC"型產(chǎn)品適合計算機用戶,如MSN,QQ視頻等,主要依賴用戶雙方的計算機加上合適的軟件實現(xiàn)。"電話到電話"型產(chǎn)品兩端都不需要計算機,電話終端本身包含音視頻處理器及相應的軟件完成音視頻即時通訊功能。由于此類產(chǎn)品使用簡單、安裝方便、便于控制、性價比合琿等優(yōu)點,市場前景廣闊,是目前國內(nèi)外研究的熱點。他實現(xiàn)的方案有多種,如采用DSP,ARM芯片,專用的會議電視芯片等??紤]到生產(chǎn)成本、實現(xiàn)的難易程度、貨源、市場推廣、產(chǎn)品的升級更新等因素,本文確定的視頻電話終端系統(tǒng)的硬件方案為:使用TI公司的通用DSP芯片TMS320DM643利用純軟件實現(xiàn)音視頻編解碼、用三星的ARM9芯片S3C2410實現(xiàn)各種接口、嵌入式操作系統(tǒng)和傳輸控制協(xié)議等。這樣既不存在芯片多成本高的問題,又能保持很高的性能,可通過簡單的程序下載實現(xiàn)軟件升級或增加新的編解碼標準。系統(tǒng)的硬件結(jié)構(gòu)框圖如圖l所示。
系統(tǒng)硬件主要由TI公司的TMS320DM643和三星公司的S3C2410組成。其中TMS320DM643完成音頻壓縮編解碼G.711/G.729/G.723.1和視頻壓縮編解碼H.264;S3C2410完成SIP協(xié)議和嵌入式OS及各種接口如RS232、復合視頻輸入/輸出、數(shù)字CCD攝像頭、LCD、RJ45、以太網(wǎng)、鍵盤等。音頻信號的輸入/輸出通過TI公司的TLV320AIC23送入TMS320DM643進行壓縮編碼。
3視頻電話終端系統(tǒng)的軟件設計
3.1 系統(tǒng)軟件結(jié)構(gòu)
在系統(tǒng)硬件完成后,剩下的需要大量丁作來編寫代碼實現(xiàn)各個功能模塊,最終實現(xiàn)整個系統(tǒng)。系統(tǒng)的軟件結(jié)構(gòu)如圖2所示。嵌入式OS是采用ARM-Linux內(nèi)核,硬件驅(qū)動模塊主要是基于ARM 9的介于硬件和Linux內(nèi)核之間的軟件接口,為特定的硬件響應定義好編程接口從而操作硬件,這2大模塊的技術目前已相當成熟,相關的文獻非常多;音頻編碼采用G.711/729/723.1,是為了讓終端能適應音頻編解碼的非對稱操作,有良好的兼容性,他可直接選用TI公司第三方提供的語音開發(fā)軟件包。本文根據(jù)視頻電話終端的特點和當前實現(xiàn)的技術難點主要討論視頻編碼H.264和SIP協(xié)議棧2大核心技術的硬件實現(xiàn)。
3.2 H.264的實現(xiàn)
H.264視頻編碼標準雖然在設計時考慮到各種不同的應用和傳輸環(huán)境,其高的壓縮效率和網(wǎng)絡親和性是以大的運算量為代價的,而在視頻電話應用中雖然帶寬有限卻實時性要求高,所以考慮到實現(xiàn)的難易程度和技術本身必須對H.264編碼方案進行精心選擇(這里理所當然選用基本級),在利用DSP芯片實現(xiàn)時對程序要進行優(yōu)化[4]。這里用C語音編程,利用TI公司的集成開發(fā)環(huán)境CCS2.2進行開發(fā)和調(diào)試,為了降低H.264編碼算法的復雜性,適合視頻電話的實時應用,主要從一下幾個方面對其進行優(yōu)化:
(1)運動估計算法的簡化
在視頻編碼中,運動估計算法起著非常關鍵的作用,通常約占一個壓縮方案總計算量的60%以上,所以這里采用一種快速的運動估計算法來降低運算復雜度[5]。在H.264編碼標準中根據(jù)宏塊(MB)的不同劃分方式其對應的預測誤差不同的特點,將編碼模式簡化為4組,先根據(jù)預測誤差判斷當前MB屬于哪一組,然后在用拉格朗日率失真算法選取該組中最佳的編碼模式,根據(jù)文獻[5]的實驗結(jié)果,這樣做編碼時間會縮短3倍左右而解碼后圖像的PSNR只有略微下降(最壞的情況不會超過0.5 dB)。對于幀內(nèi)預測,如從預測塊P的9種可選預測模式選取使P塊和當前編碼塊I之間最小的預測模式也太費時間。對I幀中每個4×4編碼模式的概率進行計算,只選取其中出現(xiàn)概率最高的4種模式用于幀內(nèi)預測[6]。
(2)對程序結(jié)構(gòu)進行優(yōu)化
首先對程序中的條件判斷語句、循環(huán)語句和函數(shù)調(diào)用等進行優(yōu)化調(diào)整減少這類耗費較多時鐘周期的指令。對視頻數(shù)據(jù)的變換和逆變換、SAD的計算、運動預測的計算等盡量使用軟件流水線。其次利用CCS2.2中C編譯器提供的優(yōu)化選項對程序進行優(yōu)化,并對程序中浪費時間較多的代碼用匯編優(yōu)化器來優(yōu)化這些代碼。
(3)優(yōu)化存儲器 由于視頻數(shù)據(jù)量較大,對數(shù)據(jù)的存取浪費的時間較多。這里使用DMA方式進行數(shù)據(jù)的存取以減少存儲器延時,即在CPU對數(shù)據(jù)處理前用DMA方式將所需數(shù)據(jù)傳送到內(nèi)部緩存中,這樣不但節(jié)約處理時間還便于使用軟件流水線。
3.3 SIP協(xié)議的實現(xiàn)
基于SIP的通信協(xié)議有多個開源版本,本文采用OS-IP2(V2.2.2)[7]。OSIP2使按照RFC3261(SIP)和RFC2327(SDP)標準并使用標準C編寫的一個公開源碼的免費協(xié)議棧。其結(jié)構(gòu)簡單小巧,專注于底層解析,效率較高。Osip2協(xié)議棧大致可以分為3部分:SIP協(xié)議的語法分析、SIP協(xié)議的過程分析和協(xié)議??蚣堋?nbsp;
(1)SIP協(xié)議的語法分析
支持RFC.3261和RFC3265定義的SIP協(xié)議消息,包括INVITE,ACK,OPTIONS,CANCEL,BYE,SUB-SCRIBE,NOTIFY,MESSAGE,REFER和INFO等。不支持RFC3262定義的PRACK。遵循RFC3264關于SDP的offer/answer模式。帶有SDP的語法分析。支持MD5加解密算法,Authorization,www_authenticate和proxy-authenticate等。
(2)SIP協(xié)議的過程分析
基于RFC3261,RFC3264和RFC3265的SIP協(xié)議描述過程,圍繞transaction這一層來實現(xiàn)SIP的解析。Transaction是指一個發(fā)送方和接收方的交互過程,由請求和應答組成。請求分為Invite類型和Non-Invite類型。應答分為響應型的應答和確認型的應答。響應型的直答是指這個應答僅代表對方收到請求。請求經(jīng)過處理后都必須返回確認型的應答。響應型的應答有1xx,確認型的應答包括2xx,3xx,4xx,5xx和6xx。一個transaction由一個請求和一個或多個響應型應答、一個確認型應答組成。Transaction根據(jù)請求的不同和發(fā)送/接收的不同可以分為4類:ict(會話邀請的發(fā)起方)、nict(非邀請會話的發(fā)起方)、ist(會話邀請的接收方)和nist(非邀請會話的接收方)。
(3)協(xié)議??蚣?nbsp;
主要有3部分:底層套接字接收/發(fā)送,模塊問通信管道,上層調(diào)用api接口。OSIP2并不實現(xiàn)底層套接字的接收俊送,其由eXOSIP實現(xiàn),現(xiàn)在只支持UDP的鏈路連接。
本文利用下載的用C語言編寫()SIP2源碼在LINUX環(huán)境下編譯后下載到ARM9 芯片S3C2410中。
4結(jié)語
根據(jù)以上的設計,研制了一套視頻電話終端樣機,完成的功能有:具有以太網(wǎng),RJ45,JTAG,數(shù)字CCD攝像頭、鍵盤和復合視頻輸入/輸出、以語音輸入/輸出接口,支持音視頻雙向同步傳送,在固話網(wǎng)和Internet網(wǎng)上測試,CIF格式視頻傳送率25幀/s,支持G.711/G.729/G.723.1語音編碼。
本文設計的視頻電話終端就目前來說市場化每臺成本能控制在1500元以下,因采用通用的DSP芯片和ARM芯片,對產(chǎn)品的進一步神經(jīng)非常方便,只需更改相關軟件即可。
通過Internet或固話網(wǎng)實現(xiàn)語音和視頻傳輸?shù)膽眯枨笤絹碓蕉?,技術應用也將趨于成熟,視頻電話機隨著費用的降低也將走入千家萬戶,具有廣闊的市場前景。