當(dāng)前位置:首頁 > 芯聞號 > 充電吧
[導(dǎo)讀]采集內(nèi)容1.音頻采集音頻數(shù)據(jù)既能與圖像結(jié)合組合成視頻數(shù)據(jù),也能以純音頻的方式采集播放,后者在很多成熟的應(yīng)用場景如在線電臺和語音電臺等起著非常重要的作用。音頻的采集過程主要通過設(shè)備將環(huán)境中的模擬信號采集

采集內(nèi)容1.音頻采集

音頻數(shù)據(jù)既能與圖像結(jié)合組合成視頻數(shù)據(jù),也能以純音頻的方式采集播放,后者在很多成熟的應(yīng)用場景如在線電臺和語音電臺等起著非常重要的作用。音頻的采集過程主要通過設(shè)備將環(huán)境中的模擬信號采集成 PCM 編碼的原始數(shù)據(jù),然后編碼壓縮成 MP3 等格式的數(shù)據(jù)分發(fā)出去。常見的音頻壓縮格式有:MP3,AAC,OGG,WMA,Opus,F(xiàn)LAC,APE,m4a 和 AMR 等。


音頻采集和編碼主要面臨的挑戰(zhàn)在于:延時敏感、卡頓敏感、噪聲消除(Denoise)、回聲消除(AEC)、靜音檢測(VAD)和各種混音算法等。


在音頻采集階段,參考的主要技術(shù)參數(shù)有 :

采樣率(samplerate):采樣就是把模擬信號數(shù)字化的過程,采樣頻率越高,記錄這一段音頻信號所用的數(shù)據(jù)量就越大,同時音頻質(zhì)量也就越高。

位寬:每一個采樣點都需要用一個數(shù)值來表示大小,這個數(shù)值的數(shù)據(jù)類型大小可以是:4bit、8bit、16bit、32bit 等等,位數(shù)越多,表示得就越精細,聲音質(zhì)量自然就越好,而數(shù)據(jù)量也會成倍增大。我們在音頻采樣過程中常用的位寬是 8bit 或者 16bit。

聲道數(shù)(channels):由于音頻的采集和播放是可以疊加的,因此,可以同時從多個音頻源采集聲音,并分別輸出到不同的揚聲器,故聲道數(shù)一般表示聲音錄制時的音源數(shù)量或回放時相應(yīng)的揚聲器數(shù)量。聲道數(shù)為 1 和 2 分別稱為單聲道和雙聲道,是比較常見的聲道參數(shù)。

音頻幀(frame):音頻跟視頻很不一樣,視頻每一幀就是一張圖像,而從上面的正玄波可以看出,音頻數(shù)據(jù)是流式的,本身沒有明確的一幀幀的概念,在實際的應(yīng)用中,為了音頻算法處理/傳輸?shù)姆奖?,一般約定俗成取 2.5ms~60ms 為單位的數(shù)據(jù)量為一幀音頻。這個時間被稱之為“采樣時間”,其長度沒有特別的標(biāo)準(zhǔn),它是根據(jù)編解碼器和具體應(yīng)用的需求來決定的。

根據(jù)以上定義,我們可以計算一下一幀音頻幀的大小。假設(shè)某音頻信號是采樣率為 8kHz、雙通道、位寬為 16bit,20ms 一幀,則一幀音頻數(shù)據(jù)的大小為:

size?=?8000?x?2?x?16bit?x?0.02s?=?5120?bit?=?640?byte


2.圖像采集

圖像采集的圖片結(jié)果組合成一組連續(xù)播放的動畫,即構(gòu)成視頻中可肉眼觀看的內(nèi)容。圖像的采集過程主要由攝像頭等設(shè)備拍攝成 YUV 編碼的原始數(shù)據(jù),然后經(jīng)過編碼壓縮成 H.264 等格式的數(shù)據(jù)分發(fā)出去。常見的視頻封裝格式有:MP4、3GP、AVI、MKV、WMV、MPG、VOB、FLV、SWF、MOV、RMVB 和 WebM 等。


圖像由于其直觀感受最強并且體積也比較大,構(gòu)成了一個視頻內(nèi)容的主要部分。圖像采集和編碼面臨的主要挑戰(zhàn)在于:設(shè)備兼容性差、延時敏感、卡頓敏感以及各種對圖像的處理操作如美顏和水印等。


在圖像采集階段,參考的主要技術(shù)參數(shù)有:

圖像傳輸格式:通用影像傳輸格式(Common Intermediate Format)是視訊會議(video conference)中常使用的影像傳輸格式。

圖像格式:通常采用 YUV 格式存儲原始數(shù)據(jù)信息,其中包含用 8 位表示的黑白圖像灰度值,以及可由 RGB 三種色彩組合成的彩色圖像。

傳輸通道:正常情況下視頻的拍攝只需 1 路通道,隨著 VR 和 AR 技術(shù)的日漸成熟,為了拍攝一個完整的 360° 視頻,可能需要通過不同角度拍攝,然后經(jīng)過多通道傳輸后合成。

分辨率:隨著設(shè)備屏幕尺寸的日益增多,視頻采集過程中原始視頻分辨率起著越來越重要的作用,后續(xù)處理環(huán)節(jié)中使用的所有視頻分辨率的定義都以原始視頻分辨率為基礎(chǔ)。視頻采集卡能支持的最大點陣反映了其分辨率的性能。

采樣頻率:采樣頻率反映了采集卡處理圖像的速度和能力。在進行高度圖像采集時,需要注意采集卡的采樣頻率是否滿足要求。采樣率越高,圖像質(zhì)量越高,同時保存這些圖像信息的數(shù)據(jù)量也越大。

以上,構(gòu)成了一個視頻采集的主要技術(shù)參數(shù),以及視頻中音頻和圖像編碼的常用格式。而對于直播 App 開發(fā)者來說,了解這些細節(jié)雖然更有幫助,但實際開發(fā)過程中可能很少能夠關(guān)注采集環(huán)節(jié)中技術(shù)參數(shù)的控制,而是直接在 SDK 中將采集后的數(shù)據(jù)傳遞給下一個「處理」和「編碼」環(huán)節(jié)。


采集源1.攝像頭采集

對于視頻內(nèi)容的采集,目前攝像頭采集是社交直播中最常見的采集方式,比如主播使用手機的前置和后置攝像頭拍攝。在現(xiàn)場直播場景中,也有專業(yè)的攝影、攝像設(shè)備用來采集。安防監(jiān)控場景中也有專業(yè)的攝像頭進行監(jiān)控采集。


目前七牛提供的 SDK 對以上兩類攝像頭的采集都支持,對于手機,iOS 和 Android 分別支持前置后置攝像頭的采集,只是 iOS 由于設(shè)備種類和系統(tǒng)版本不多,因此采集模塊兼容性較好;而 Android 需要適配的硬件設(shè)備和系統(tǒng)則非常多,目前支持 Android 4.0.3 及以上的攝像頭采集。對于專業(yè)攝像機或者攝像頭,七牛云提供了兼容適合嵌入式系統(tǒng)的 C 語言采集模塊的實現(xiàn),歡迎參考使用。


2.屏幕錄制

屏幕錄制采集的方式在游戲直播場景中非常常見,目前我們在 Android SDK 中實現(xiàn)了屏幕錄制的功能。而 iOS 則由于系統(tǒng)本身沒有開放屏幕錄制的權(quán)限而沒法直接操作,但對于 iOS 9 以上的版本,是有個取巧的辦法,可以通過模擬一個 AirPlay 鏡像連接到(當(dāng)前 App)自身,這樣就可以在軟件上捕獲到屏幕上的任何操作,達到錄制屏幕的效果。


在教育直播或者會場演講場合,我們經(jīng)??匆娦枰浿齐娔X桌面上 PPT 的場景,針對這種場景,目前市面上比較方便的方案是使用開源的桌面推流工具 OBS 來進行屏幕錄制和推流。


3.從視頻文件推流

除了從硬件設(shè)備采集視頻進行推流之外,我們也可能需要將一個視頻或者音頻文件以直播流的形式實時傳輸給觀眾,比如在線電臺或者電視節(jié)目,它們的輸入可能直接來自于一些已經(jīng)錄制剪輯好的視頻內(nèi)容。


開放式設(shè)計?

以上從采集內(nèi)容和采集源兩個維度分別介紹了視頻采集相關(guān)的知識,但對于采集源來說,市場上可見的采集源遠遠不止這三種,即便是攝像頭也有很多分類。對于一個完整的覆蓋推流、傳輸和播放三個環(huán)節(jié)的直播云服務(wù)來說,支持盡可能多的采集源和播放終端是一項既無法規(guī)避也很難完成的工作。


為了支持市場上所有采集源的接入,我們在 SDK 中采用了開放式的設(shè)計,只要采集源實現(xiàn)方遵循相應(yīng)的接口,即可支持任意的采集源。

圖中我們把采集的內(nèi)容分為圖像和音頻,其中圖像的采集源包含攝像頭、屏幕錄制或者本地的視頻文件,甚至是其它需要重新定義和實現(xiàn)的采集源。而音頻的采集源包含麥克風(fēng)、系統(tǒng)聲音或者本地音頻文件,當(dāng)然也可以為它定義別的輸入源。

這樣設(shè)計最大的好處在于,可以以輕量的設(shè)計方式支持豐富的采集源,而采集源的具體實現(xiàn)也可以交給使用者。

在下一篇連載中,我們將詳細介紹下直播中的處理環(huán)節(jié),解答如何滿足市場上主播的各種需求如美顏、水印、連麥互動等。

本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險,如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉