當(dāng)前位置:首頁 > 芯聞號 > 充電吧
[導(dǎo)讀]按:前些天,谷歌發(fā)布了全新Pixel 3/Pixel 3XL手機,其最新的AI拍照功能令人感到驚艷。Night Sight夜間拍照效果吊打iPhone XS;Top Shot功能可以連續(xù)拍攝多張HDR

按:前些天,谷歌發(fā)布了全新Pixel 3/Pixel 3XL手機,其最新的AI拍照功能令人感到驚艷。Night Sight夜間拍照效果吊打iPhone XS;Top Shot功能可以連續(xù)拍攝多張HDR+照片,自動去掉抖動、眨眼的廢片,推薦效果最好的一張;Photo Booth模式可以在檢測到人臉有微笑或者有趣的表情時自動拍照,幫你留下珍貴的一刻;Super Res Zoom通過攝像頭的變焦功能拍攝具備高分辨率的照片。

在看來,Super Res Zoom可以說是此次幾項全新AI拍照功能中最難理解的一個,也讓不少業(yè)內(nèi)人士感到好奇。幸而,谷歌計算成像領(lǐng)域首席科學(xué)家Peyman Milanfar和軟件工程師Bartlomiej Wronski在Google Blog特意發(fā)布一篇博文,講述了Super Res Zoom技術(shù)實現(xiàn)的全部過程。對原文進行了不改變原意的翻譯和編輯。

一直以來,使用算法(而不是鏡頭)來進行數(shù)碼變焦的移動設(shè)備相機就像是“丑小鴨”。數(shù)碼變焦的圖像質(zhì)量難以與數(shù)碼單反相機的光學(xué)變焦相提并論,因此傳統(tǒng)觀點認為,大型相機的復(fù)雜光學(xué)機制無法被更緊湊的移動設(shè)備相機和聰明的算法替代。

憑借Pixel 3上新的Super Res Zoom功能,我們正在挑戰(zhàn)這一概念。

此前,數(shù)碼變焦技術(shù)主要是升級單個圖像中的像素,Pixel 3中的Super Res Zoom技術(shù)則不然。Super Res Zoom的做法是將許多幀的圖像直接合并以產(chǎn)生更高分辨率的圖像,這個方法能大大改善圖片的細節(jié),能許多其他智能手機上的2倍光學(xué)變焦鏡頭大致相當(dāng)。

2倍變焦:Pixel 2vs. Super Res Zoom Pixel 3

數(shù)碼變焦的挑戰(zhàn)

數(shù)碼變焦是困難的。因為一個好的算法期望從低分辨率的圖像開始,并可靠地“重建”缺失的細節(jié)——在典型的數(shù)字變焦中,單個圖像的一小部分被放大,生成一個大得多的圖像。傳統(tǒng)上,這是通過線性插值方法來實現(xiàn)的,這種方法試圖重新創(chuàng)建在原始圖像中丟失的信息,但會使得圖像模糊,缺乏紋理和細節(jié)。基于單圖像來提升圖像質(zhì)量一般采用機器學(xué)習(xí)的方法(包括我們自己的早期工作RAISR)。這些圖像放大了一些特定的圖像特征,如直線邊緣,甚至可以合成某些紋理,但無法恢復(fù)自然的高分辨率細節(jié)。雖然我們?nèi)匀皇褂肦AISR來提高圖像的視覺質(zhì)量,不過Super Res Zoom創(chuàng)新性地采用了多幀圖像方法。

彩色濾鏡陣列和脫模

重構(gòu)細節(jié)尤其困難,因為數(shù)碼照片已經(jīng)不完整了。通過一種叫做脫模(Demosaicing)的過程,我們可以從部分顏色信息中重構(gòu)丟失的信息。在典型的消費相機中,相機傳感器元件只用于測量光的強度,而不是直接測量光的顏色。為了捕捉場景中呈現(xiàn)的真實顏色,攝像機使用放置在傳感器前面的顏色濾鏡陣列,以便每個像素只測量一種顏色(紅色、綠色或藍色)。如下圖所示,它們以拜耳模式排列。

拜耳馬賽克彩色濾鏡:每2x2組像素捕獲由特定顏色過濾的光——兩個綠色像素(因為我們的眼睛對綠色更敏感),一個紅色,一個藍色。這種模式在整個圖像中重復(fù)出現(xiàn)。

然后,在給定部分信息的情況下,攝像機處理管道必須重構(gòu)所有像素的真實顏色和所有細節(jié)。脫模(Demosaicing)過程的第一步是要猜測丟失的顏色信息,通常會選取附近像素的顏色進行插值,這意味著RGB數(shù)字圖像的三分之二實際上是重建的!

脫模利用相鄰像素重建丟失的顏色信息

在最簡單的形式中,這可以通過對相鄰值進行平均來實現(xiàn)。大多數(shù)真正的解謎算法都比這更復(fù)雜,但由于只能得到部分信息,脫模的效果仍然不完美而且有很重的人工痕跡。雖然大尺寸的單反相機也存在這種情況,但它們更大的傳感器和更大的鏡頭能比一般的移動相機能夠捕捉到更多的細節(jié)。

如果你在移動設(shè)備上進行縮放變焦,情況會變得更糟;然后,算法被迫通過附近的像素進行插值來彌補更多的信息。然而,這也不是一無是處,因為即使受到移動設(shè)備光學(xué)的限制,高速連拍(Burst Photography)以及多幅圖像的融合可以用來實現(xiàn)超分辨率。

從高速連拍(Burst Photography)到多幀超分辨率

雖然單個幀不能提供足夠的信息來填充缺失的顏色,但是我們可以從高速連續(xù)拍攝的多個圖像中獲得一些缺失的信息。谷歌的HDR+算法在Nexus手機和Pixel手機上得到了成功應(yīng)用,它已經(jīng)利用多幀的信息使手機照片達到了更大傳感器所期望的質(zhì)量水平,是否可以使用類似的方法來提高圖像分辨率?

多幀超分辨率的概念出現(xiàn)已經(jīng)有十多年歷史了(在天文攝影上,類似的概念被稱為“drizzle”),通過捕捉和組合多個細微位置差異的照片可以產(chǎn)生相當(dāng)于光學(xué)變焦的效果,至少在2-3倍的低倍變焦和良好的照明條件下。在這個過程中,一般的想法是將低分辨率的圖像部分直接對齊并合并到一個理想(更高)分辨率的網(wǎng)格上。下面是一個理想化的多幀超分辨率算法如何工作的例子:

(與頂部的需要插值的脫模過程相比,用多個圖像填充,每個圖像水平或垂直移動一個像素更為理想)

在上面的示例中,我們捕獲了4個幀,其中3個幀精確地移動了一個像素:從水平方向、垂直方向以及同時從水平和垂直方向。所有的洞都會被填滿,根本就不需要任何脫模。一些單反相機支持這種操作,但只有當(dāng)相機在三腳架上,傳感器/鏡頭能進行移動,這有時被稱為“微步”(microstepping)。

多年來,這種“超級分辨率”的高分辨率成像方法的應(yīng)用仍然主要局限于實驗室,或以其他方式控制的設(shè)置中。在這些設(shè)置中,傳感器和主體是對齊的,它們之間的移動要么是有意控制的,要么是受到嚴格限制的。例如,在天文成像中,用固定的望遠鏡來拍攝星空的移動軌跡。但在當(dāng)今智能手機等廣泛使用的成像設(shè)備及應(yīng)用程序中,超級分辨率的實際應(yīng)用仍是可望而不可及的。

多幀超分辨率功能需要滿足一些條件。首先,也是最重要的一點,鏡頭需要比所使用的傳感器更好地處理細節(jié)(相反,你可以想象這樣一個情況,鏡頭設(shè)計得很差,添加一個更好的傳感器沒有任何好處)。數(shù)碼相機有的一種常見的且不受歡迎的效果,叫做混疊(aliasing)。

圖像混疊

當(dāng)攝像機傳感器不能忠實地表示場景中的所有模式和細節(jié)時,就會發(fā)生混疊?;殳B的一個很好的例子是龜紋圖案(Moiré patterns),當(dāng)兩種同樣的圖案以一定的角度重疊會出現(xiàn)的現(xiàn)象。

由兩組平行線產(chǎn)生的莫爾條紋,一組垂直,另一組傾斜5°

此外,當(dāng)物體在場景中移動時,對物理特征(如表邊)的混疊效果也會發(fā)生變化。您可以在以下連拍序列中觀察到這一點,在連拍序列中,相機的輕微運動會產(chǎn)生時變的混疊效果:


左圖:高分辨率下的桌子邊緣的單幅圖像,右圖:連拍產(chǎn)生的不同圖像幀。混疊效果和云紋效果在不同的幀之間是可見的——像素似乎跳來跳去,產(chǎn)生不同的彩色圖案

但是,我們也能因禍得福,如果分析混疊效果產(chǎn)生的模式,就會得到顏色和亮度值的多樣性,以實現(xiàn)超分辨率。盡管如此,要在手持移動設(shè)備和任何連拍序列中實現(xiàn)高分辨率,依然有諸多挑戰(zhàn)存在。

手部移動實現(xiàn)超分辨率

如前所述,一些單反相機提供了特殊的三腳架超分辨率模式,類似于我們目前描述的方式。這些方法依賴于相機內(nèi)傳感器和光學(xué)器件的物理運動,但需要相機完全穩(wěn)定。然而,這在移動設(shè)備上是不切實際的,因為它們幾乎總是手持的。

然而,借助手部運動方案,我們將這個最大的難點變成了我們的優(yōu)勢。當(dāng)我們用手持相機或手機拍攝一組照片時,畫面之間總會有一些運動。光學(xué)圖像穩(wěn)定(OIS)系統(tǒng)可以補償相機的大運動——通常間隔1/30秒以內(nèi)的5-20像素移動——但不能完全消除更快、更低的幅度、自然的手震顫。當(dāng)使用高分辨率傳感器的手機拍照時,這種手抖的幅度只有幾個像素。

在進行處理后,連拍中手掌震顫的結(jié)果

為了利用手部抖動的優(yōu)勢,我們首先需要將高速連拍的照片排列在一起,我們選擇高速連拍圖像中的單個圖像作為“基”或參考幀,并對齊與之相關(guān)的所有其他幀。對齊后,這些圖像大致結(jié)合在一起。當(dāng)然,手部運動不太可能將圖像精確地移動單個像素,因此我們需要在每個新捕獲的幀中插入相鄰像素,然后將顏色注入基幀的像素網(wǎng)格中。

當(dāng)由于設(shè)備是完全穩(wěn)定的(例如放置在三腳架上)而沒有出現(xiàn)手部運動時,我們?nèi)匀豢梢酝ㄟ^故意“抖動”相機來達到模擬自然手部運動的目的,通過強迫OIS模塊在鏡頭之間輕微移動。這個移動非常小,選擇的時候不會干擾正常的照片——但是你可以在Pixel 3上自己觀察它,你可以把手機完全固定,比如把它按在窗口上,或者最大限度地縮放取景器。如下圖所示,可以觀察遠處物體微小但連續(xù)的橢圓運動。

克服超分辨率的挑戰(zhàn)

以上是我們對理想過程的描述,聽起來很簡單,但是要實現(xiàn)超分辨率并不是那么容易。有很多原因?qū)е聸]有被廣泛應(yīng)用到手機等消費產(chǎn)品中,例如其需要大量的算法創(chuàng)新。挑戰(zhàn)可以包括:

即使在良好的光照條件下,連拍的單個圖像也是有噪聲的。一個實用的超分辨率算法需要意識到這種噪音,并正確工作。我們不想只得到更高分辨率的噪聲圖像——我們的目標是既提高分辨率,又能產(chǎn)生更小的噪聲。

左:在良好的光照條件下拍攝的單幀圖像,由于曝光不足,仍然可能包含大量的噪聲。右:連拍處理后合并多幀的結(jié)果。

在連拍的圖像之間的運動不僅僅局限于相機的運動,可能有復(fù)雜的場景中運動如風(fēng)吹動的樹葉、水面漣漪、汽車、人的面部變化、火焰的閃爍——甚至一些不能被視為獨立運動的如吸煙。一般來說,完全可靠和局部對準是不可能的,因此即使運動估計不完美,一個好的超分辨率算法也要能用。

因為大多數(shù)運動是隨機的,即使有良好的對齊,數(shù)據(jù)可能在圖像的某些區(qū)域密集,而在其他區(qū)域稀疏。超分辨率的關(guān)鍵是一個復(fù)雜的插值問題,因此數(shù)據(jù)的不規(guī)則傳播使得在網(wǎng)格的各個部分生成更高分辨率的圖像具有挑戰(zhàn)性。



以上所有的挑戰(zhàn)似乎都使得超分辨率在實踐中不可行,或者充其量只能局限于靜態(tài)場景和放在三腳架上的相機。利用Pixel 3上的Super Res Zoom,我們開發(fā)了一種穩(wěn)定、精確的連拍分辨率增強方法,它使用自然的手部運動,并且足夠強大,可以部署在手機上。

以下是我們解決上述挑戰(zhàn)的方法:

為了在高速連拍(Burst Photography)情況下有效地合并幀,并為每個像素生成一個紅色、綠色和藍色的值,而不需要進行除噪,我們開發(fā)了一種跨幀集成信息的方法,該方法考慮了圖像的邊緣,并相應(yīng)地進行了調(diào)整。具體地說,我們分析輸入幀并調(diào)整我們?nèi)绾螌⑺鼈兘M合在一起,權(quán)衡增加的細節(jié),分辨率,噪聲抑制和平滑。我們通過沿著明顯邊緣的方向合并像素,而不是跨越它們來實現(xiàn)這一點。效果是我們的多幀方法提供了噪音減少和細節(jié)的增強之間的最佳平衡。

為了使算法能夠可靠地處理復(fù)雜的局部運動場景(人、車、水或樹葉移動),我們開發(fā)了一個魯棒性模型來檢測和減輕對齊誤差。我們選擇一幀作為“參考圖像”,并只有當(dāng)我們確信我們找到了正確的對應(yīng)特征才將來自其他幀的信息合并到它。通過這種方式,我們可以避免像“重影”或運動模糊,或者是錯誤地合并圖像的部分。


一輛快速行駛的公共汽車的連拍圖像。左:沒有魯棒性模型下合并。右:有魯棒模型下合并

推動移動攝影技術(shù)的發(fā)展

去年谷歌推出的人像模式(Portrait mode),以及之前HDR+ pipeline都展示了移動攝影的優(yōu)越性。今年,我們從變焦下手。Super Res Zoom能提高計算機攝影技術(shù)水平,同時縮小移動攝影和數(shù)碼單反之間的質(zhì)量差距。

超分辨率的概念比智能手機的出現(xiàn)早了至少10年。在幾乎同樣長的時間里,它也通過電影和電視在公眾的想象中存在,它也是學(xué)術(shù)期刊和學(xué)術(shù)會議上成千上萬篇論文的主題?,F(xiàn)在,在你手掌中的Pixel 3里,超分辨率真實存在。

如何最大限度地利用Super Res Zoom?

這里有一些關(guān)于如何在Pixel 3的手機上使用Super Res Zoom的技巧:

縮放再縮放,或者使用+按鈕增加縮放的離散步驟。

雙擊預(yù)覽以快速切換縮放和縮小。

Super Res Zoom可以在所有縮放系數(shù)下工作,不過出于性能原因,它只激活了1.2倍以上。

Pixel的廣角攝像機的光學(xué)分辨率有基本的限制。因此,為了最大限度地利用縮放,請保持放大系數(shù)適中。

避免快速移動的物體。Super Res Zoom能正確捕捉它們,但你不可能得到更高的分辨率。



本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險,如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉