當(dāng)前位置:首頁(yè) > 芯聞號(hào) > 充電吧
[導(dǎo)讀]按:前些天,谷歌發(fā)布了全新Pixel 3/Pixel 3XL手機(jī),其最新的AI拍照功能令人感到驚艷。Night Sight夜間拍照效果吊打iPhone XS;Top Shot功能可以連續(xù)拍攝多張HDR

按:前些天,谷歌發(fā)布了全新Pixel 3/Pixel 3XL手機(jī),其最新的AI拍照功能令人感到驚艷。Night Sight夜間拍照效果吊打iPhone XS;Top Shot功能可以連續(xù)拍攝多張HDR+照片,自動(dòng)去掉抖動(dòng)、眨眼的廢片,推薦效果最好的一張;Photo Booth模式可以在檢測(cè)到人臉有微笑或者有趣的表情時(shí)自動(dòng)拍照,幫你留下珍貴的一刻;Super Res Zoom通過(guò)攝像頭的變焦功能拍攝具備高分辨率的照片。

在看來(lái),Super Res Zoom可以說(shuō)是此次幾項(xiàng)全新AI拍照功能中最難理解的一個(gè),也讓不少業(yè)內(nèi)人士感到好奇。幸而,谷歌計(jì)算成像領(lǐng)域首席科學(xué)家Peyman Milanfar和軟件工程師Bartlomiej Wronski在Google Blog特意發(fā)布一篇博文,講述了Super Res Zoom技術(shù)實(shí)現(xiàn)的全部過(guò)程。對(duì)原文進(jìn)行了不改變?cè)獾姆g和編輯。

一直以來(lái),使用算法(而不是鏡頭)來(lái)進(jìn)行數(shù)碼變焦的移動(dòng)設(shè)備相機(jī)就像是“丑小鴨”。數(shù)碼變焦的圖像質(zhì)量難以與數(shù)碼單反相機(jī)的光學(xué)變焦相提并論,因此傳統(tǒng)觀點(diǎn)認(rèn)為,大型相機(jī)的復(fù)雜光學(xué)機(jī)制無(wú)法被更緊湊的移動(dòng)設(shè)備相機(jī)和聰明的算法替代。

憑借Pixel 3上新的Super Res Zoom功能,我們正在挑戰(zhàn)這一概念。

此前,數(shù)碼變焦技術(shù)主要是升級(jí)單個(gè)圖像中的像素,Pixel 3中的Super Res Zoom技術(shù)則不然。Super Res Zoom的做法是將許多幀的圖像直接合并以產(chǎn)生更高分辨率的圖像,這個(gè)方法能大大改善圖片的細(xì)節(jié),能許多其他智能手機(jī)上的2倍光學(xué)變焦鏡頭大致相當(dāng)。

2倍變焦:Pixel 2vs. Super Res Zoom Pixel 3

數(shù)碼變焦的挑戰(zhàn)

數(shù)碼變焦是困難的。因?yàn)橐粋€(gè)好的算法期望從低分辨率的圖像開(kāi)始,并可靠地“重建”缺失的細(xì)節(jié)——在典型的數(shù)字變焦中,單個(gè)圖像的一小部分被放大,生成一個(gè)大得多的圖像。傳統(tǒng)上,這是通過(guò)線性插值方法來(lái)實(shí)現(xiàn)的,這種方法試圖重新創(chuàng)建在原始圖像中丟失的信息,但會(huì)使得圖像模糊,缺乏紋理和細(xì)節(jié)?;趩螆D像來(lái)提升圖像質(zhì)量一般采用機(jī)器學(xué)習(xí)的方法(包括我們自己的早期工作RAISR)。這些圖像放大了一些特定的圖像特征,如直線邊緣,甚至可以合成某些紋理,但無(wú)法恢復(fù)自然的高分辨率細(xì)節(jié)。雖然我們?nèi)匀皇褂肦AISR來(lái)提高圖像的視覺(jué)質(zhì)量,不過(guò)Super Res Zoom創(chuàng)新性地采用了多幀圖像方法。

彩色濾鏡陣列和脫模

重構(gòu)細(xì)節(jié)尤其困難,因?yàn)閿?shù)碼照片已經(jīng)不完整了。通過(guò)一種叫做脫模(Demosaicing)的過(guò)程,我們可以從部分顏色信息中重構(gòu)丟失的信息。在典型的消費(fèi)相機(jī)中,相機(jī)傳感器元件只用于測(cè)量光的強(qiáng)度,而不是直接測(cè)量光的顏色。為了捕捉場(chǎng)景中呈現(xiàn)的真實(shí)顏色,攝像機(jī)使用放置在傳感器前面的顏色濾鏡陣列,以便每個(gè)像素只測(cè)量一種顏色(紅色、綠色或藍(lán)色)。如下圖所示,它們以拜耳模式排列。

拜耳馬賽克彩色濾鏡:每2x2組像素捕獲由特定顏色過(guò)濾的光——兩個(gè)綠色像素(因?yàn)槲覀兊难劬?duì)綠色更敏感),一個(gè)紅色,一個(gè)藍(lán)色。這種模式在整個(gè)圖像中重復(fù)出現(xiàn)。

然后,在給定部分信息的情況下,攝像機(jī)處理管道必須重構(gòu)所有像素的真實(shí)顏色和所有細(xì)節(jié)。脫模(Demosaicing)過(guò)程的第一步是要猜測(cè)丟失的顏色信息,通常會(huì)選取附近像素的顏色進(jìn)行插值,這意味著RGB數(shù)字圖像的三分之二實(shí)際上是重建的!

脫模利用相鄰像素重建丟失的顏色信息

在最簡(jiǎn)單的形式中,這可以通過(guò)對(duì)相鄰值進(jìn)行平均來(lái)實(shí)現(xiàn)。大多數(shù)真正的解謎算法都比這更復(fù)雜,但由于只能得到部分信息,脫模的效果仍然不完美而且有很重的人工痕跡。雖然大尺寸的單反相機(jī)也存在這種情況,但它們更大的傳感器和更大的鏡頭能比一般的移動(dòng)相機(jī)能夠捕捉到更多的細(xì)節(jié)。

如果你在移動(dòng)設(shè)備上進(jìn)行縮放變焦,情況會(huì)變得更糟;然后,算法被迫通過(guò)附近的像素進(jìn)行插值來(lái)彌補(bǔ)更多的信息。然而,這也不是一無(wú)是處,因?yàn)榧词故艿揭苿?dòng)設(shè)備光學(xué)的限制,高速連拍(Burst Photography)以及多幅圖像的融合可以用來(lái)實(shí)現(xiàn)超分辨率。

從高速連拍(Burst Photography)到多幀超分辨率

雖然單個(gè)幀不能提供足夠的信息來(lái)填充缺失的顏色,但是我們可以從高速連續(xù)拍攝的多個(gè)圖像中獲得一些缺失的信息。谷歌的HDR+算法在Nexus手機(jī)和Pixel手機(jī)上得到了成功應(yīng)用,它已經(jīng)利用多幀的信息使手機(jī)照片達(dá)到了更大傳感器所期望的質(zhì)量水平,是否可以使用類似的方法來(lái)提高圖像分辨率?

多幀超分辨率的概念出現(xiàn)已經(jīng)有十多年歷史了(在天文攝影上,類似的概念被稱為“drizzle”),通過(guò)捕捉和組合多個(gè)細(xì)微位置差異的照片可以產(chǎn)生相當(dāng)于光學(xué)變焦的效果,至少在2-3倍的低倍變焦和良好的照明條件下。在這個(gè)過(guò)程中,一般的想法是將低分辨率的圖像部分直接對(duì)齊并合并到一個(gè)理想(更高)分辨率的網(wǎng)格上。下面是一個(gè)理想化的多幀超分辨率算法如何工作的例子:

(與頂部的需要插值的脫模過(guò)程相比,用多個(gè)圖像填充,每個(gè)圖像水平或垂直移動(dòng)一個(gè)像素更為理想)

在上面的示例中,我們捕獲了4個(gè)幀,其中3個(gè)幀精確地移動(dòng)了一個(gè)像素:從水平方向、垂直方向以及同時(shí)從水平和垂直方向。所有的洞都會(huì)被填滿,根本就不需要任何脫模。一些單反相機(jī)支持這種操作,但只有當(dāng)相機(jī)在三腳架上,傳感器/鏡頭能進(jìn)行移動(dòng),這有時(shí)被稱為“微步”(microstepping)。

多年來(lái),這種“超級(jí)分辨率”的高分辨率成像方法的應(yīng)用仍然主要局限于實(shí)驗(yàn)室,或以其他方式控制的設(shè)置中。在這些設(shè)置中,傳感器和主體是對(duì)齊的,它們之間的移動(dòng)要么是有意控制的,要么是受到嚴(yán)格限制的。例如,在天文成像中,用固定的望遠(yuǎn)鏡來(lái)拍攝星空的移動(dòng)軌跡。但在當(dāng)今智能手機(jī)等廣泛使用的成像設(shè)備及應(yīng)用程序中,超級(jí)分辨率的實(shí)際應(yīng)用仍是可望而不可及的。

多幀超分辨率功能需要滿足一些條件。首先,也是最重要的一點(diǎn),鏡頭需要比所使用的傳感器更好地處理細(xì)節(jié)(相反,你可以想象這樣一個(gè)情況,鏡頭設(shè)計(jì)得很差,添加一個(gè)更好的傳感器沒(méi)有任何好處)。數(shù)碼相機(jī)有的一種常見(jiàn)的且不受歡迎的效果,叫做混疊(aliasing)。

圖像混疊

當(dāng)攝像機(jī)傳感器不能忠實(shí)地表示場(chǎng)景中的所有模式和細(xì)節(jié)時(shí),就會(huì)發(fā)生混疊?;殳B的一個(gè)很好的例子是龜紋圖案(Moiré patterns),當(dāng)兩種同樣的圖案以一定的角度重疊會(huì)出現(xiàn)的現(xiàn)象。

由兩組平行線產(chǎn)生的莫爾條紋,一組垂直,另一組傾斜5°

此外,當(dāng)物體在場(chǎng)景中移動(dòng)時(shí),對(duì)物理特征(如表邊)的混疊效果也會(huì)發(fā)生變化。您可以在以下連拍序列中觀察到這一點(diǎn),在連拍序列中,相機(jī)的輕微運(yùn)動(dòng)會(huì)產(chǎn)生時(shí)變的混疊效果:


左圖:高分辨率下的桌子邊緣的單幅圖像,右圖:連拍產(chǎn)生的不同圖像幀?;殳B效果和云紋效果在不同的幀之間是可見(jiàn)的——像素似乎跳來(lái)跳去,產(chǎn)生不同的彩色圖案

但是,我們也能因禍得福,如果分析混疊效果產(chǎn)生的模式,就會(huì)得到顏色和亮度值的多樣性,以實(shí)現(xiàn)超分辨率。盡管如此,要在手持移動(dòng)設(shè)備和任何連拍序列中實(shí)現(xiàn)高分辨率,依然有諸多挑戰(zhàn)存在。

手部移動(dòng)實(shí)現(xiàn)超分辨率

如前所述,一些單反相機(jī)提供了特殊的三腳架超分辨率模式,類似于我們目前描述的方式。這些方法依賴于相機(jī)內(nèi)傳感器和光學(xué)器件的物理運(yùn)動(dòng),但需要相機(jī)完全穩(wěn)定。然而,這在移動(dòng)設(shè)備上是不切實(shí)際的,因?yàn)樗鼈儙缀蹩偸鞘殖值摹?/p>

然而,借助手部運(yùn)動(dòng)方案,我們將這個(gè)最大的難點(diǎn)變成了我們的優(yōu)勢(shì)。當(dāng)我們用手持相機(jī)或手機(jī)拍攝一組照片時(shí),畫面之間總會(huì)有一些運(yùn)動(dòng)。光學(xué)圖像穩(wěn)定(OIS)系統(tǒng)可以補(bǔ)償相機(jī)的大運(yùn)動(dòng)——通常間隔1/30秒以內(nèi)的5-20像素移動(dòng)——但不能完全消除更快、更低的幅度、自然的手震顫。當(dāng)使用高分辨率傳感器的手機(jī)拍照時(shí),這種手抖的幅度只有幾個(gè)像素。

在進(jìn)行處理后,連拍中手掌震顫的結(jié)果

為了利用手部抖動(dòng)的優(yōu)勢(shì),我們首先需要將高速連拍的照片排列在一起,我們選擇高速連拍圖像中的單個(gè)圖像作為“基”或參考幀,并對(duì)齊與之相關(guān)的所有其他幀。對(duì)齊后,這些圖像大致結(jié)合在一起。當(dāng)然,手部運(yùn)動(dòng)不太可能將圖像精確地移動(dòng)單個(gè)像素,因此我們需要在每個(gè)新捕獲的幀中插入相鄰像素,然后將顏色注入基幀的像素網(wǎng)格中。

當(dāng)由于設(shè)備是完全穩(wěn)定的(例如放置在三腳架上)而沒(méi)有出現(xiàn)手部運(yùn)動(dòng)時(shí),我們?nèi)匀豢梢酝ㄟ^(guò)故意“抖動(dòng)”相機(jī)來(lái)達(dá)到模擬自然手部運(yùn)動(dòng)的目的,通過(guò)強(qiáng)迫OIS模塊在鏡頭之間輕微移動(dòng)。這個(gè)移動(dòng)非常小,選擇的時(shí)候不會(huì)干擾正常的照片——但是你可以在Pixel 3上自己觀察它,你可以把手機(jī)完全固定,比如把它按在窗口上,或者最大限度地縮放取景器。如下圖所示,可以觀察遠(yuǎn)處物體微小但連續(xù)的橢圓運(yùn)動(dòng)。

克服超分辨率的挑戰(zhàn)

以上是我們對(duì)理想過(guò)程的描述,聽(tīng)起來(lái)很簡(jiǎn)單,但是要實(shí)現(xiàn)超分辨率并不是那么容易。有很多原因?qū)е聸](méi)有被廣泛應(yīng)用到手機(jī)等消費(fèi)產(chǎn)品中,例如其需要大量的算法創(chuàng)新。挑戰(zhàn)可以包括:

即使在良好的光照條件下,連拍的單個(gè)圖像也是有噪聲的。一個(gè)實(shí)用的超分辨率算法需要意識(shí)到這種噪音,并正確工作。我們不想只得到更高分辨率的噪聲圖像——我們的目標(biāo)是既提高分辨率,又能產(chǎn)生更小的噪聲。

左:在良好的光照條件下拍攝的單幀圖像,由于曝光不足,仍然可能包含大量的噪聲。右:連拍處理后合并多幀的結(jié)果。

在連拍的圖像之間的運(yùn)動(dòng)不僅僅局限于相機(jī)的運(yùn)動(dòng),可能有復(fù)雜的場(chǎng)景中運(yùn)動(dòng)如風(fēng)吹動(dòng)的樹(shù)葉、水面漣漪、汽車、人的面部變化、火焰的閃爍——甚至一些不能被視為獨(dú)立運(yùn)動(dòng)的如吸煙。一般來(lái)說(shuō),完全可靠和局部對(duì)準(zhǔn)是不可能的,因此即使運(yùn)動(dòng)估計(jì)不完美,一個(gè)好的超分辨率算法也要能用。

因?yàn)榇蠖鄶?shù)運(yùn)動(dòng)是隨機(jī)的,即使有良好的對(duì)齊,數(shù)據(jù)可能在圖像的某些區(qū)域密集,而在其他區(qū)域稀疏。超分辨率的關(guān)鍵是一個(gè)復(fù)雜的插值問(wèn)題,因此數(shù)據(jù)的不規(guī)則傳播使得在網(wǎng)格的各個(gè)部分生成更高分辨率的圖像具有挑戰(zhàn)性。



以上所有的挑戰(zhàn)似乎都使得超分辨率在實(shí)踐中不可行,或者充其量只能局限于靜態(tài)場(chǎng)景和放在三腳架上的相機(jī)。利用Pixel 3上的Super Res Zoom,我們開(kāi)發(fā)了一種穩(wěn)定、精確的連拍分辨率增強(qiáng)方法,它使用自然的手部運(yùn)動(dòng),并且足夠強(qiáng)大,可以部署在手機(jī)上。

以下是我們解決上述挑戰(zhàn)的方法:

為了在高速連拍(Burst Photography)情況下有效地合并幀,并為每個(gè)像素生成一個(gè)紅色、綠色和藍(lán)色的值,而不需要進(jìn)行除噪,我們開(kāi)發(fā)了一種跨幀集成信息的方法,該方法考慮了圖像的邊緣,并相應(yīng)地進(jìn)行了調(diào)整。具體地說(shuō),我們分析輸入幀并調(diào)整我們?nèi)绾螌⑺鼈兘M合在一起,權(quán)衡增加的細(xì)節(jié),分辨率,噪聲抑制和平滑。我們通過(guò)沿著明顯邊緣的方向合并像素,而不是跨越它們來(lái)實(shí)現(xiàn)這一點(diǎn)。效果是我們的多幀方法提供了噪音減少和細(xì)節(jié)的增強(qiáng)之間的最佳平衡。

為了使算法能夠可靠地處理復(fù)雜的局部運(yùn)動(dòng)場(chǎng)景(人、車、水或樹(shù)葉移動(dòng)),我們開(kāi)發(fā)了一個(gè)魯棒性模型來(lái)檢測(cè)和減輕對(duì)齊誤差。我們選擇一幀作為“參考圖像”,并只有當(dāng)我們確信我們找到了正確的對(duì)應(yīng)特征才將來(lái)自其他幀的信息合并到它。通過(guò)這種方式,我們可以避免像“重影”或運(yùn)動(dòng)模糊,或者是錯(cuò)誤地合并圖像的部分。


一輛快速行駛的公共汽車的連拍圖像。左:沒(méi)有魯棒性模型下合并。右:有魯棒模型下合并

推動(dòng)移動(dòng)攝影技術(shù)的發(fā)展

去年谷歌推出的人像模式(Portrait mode),以及之前HDR+ pipeline都展示了移動(dòng)攝影的優(yōu)越性。今年,我們從變焦下手。Super Res Zoom能提高計(jì)算機(jī)攝影技術(shù)水平,同時(shí)縮小移動(dòng)攝影和數(shù)碼單反之間的質(zhì)量差距。

超分辨率的概念比智能手機(jī)的出現(xiàn)早了至少10年。在幾乎同樣長(zhǎng)的時(shí)間里,它也通過(guò)電影和電視在公眾的想象中存在,它也是學(xué)術(shù)期刊和學(xué)術(shù)會(huì)議上成千上萬(wàn)篇論文的主題?,F(xiàn)在,在你手掌中的Pixel 3里,超分辨率真實(shí)存在。

如何最大限度地利用Super Res Zoom?

這里有一些關(guān)于如何在Pixel 3的手機(jī)上使用Super Res Zoom的技巧:

縮放再縮放,或者使用+按鈕增加縮放的離散步驟。

雙擊預(yù)覽以快速切換縮放和縮小。

Super Res Zoom可以在所有縮放系數(shù)下工作,不過(guò)出于性能原因,它只激活了1.2倍以上。

Pixel的廣角攝像機(jī)的光學(xué)分辨率有基本的限制。因此,為了最大限度地利用縮放,請(qǐng)保持放大系數(shù)適中。

避免快速移動(dòng)的物體。Super Res Zoom能正確捕捉它們,但你不可能得到更高的分辨率。



本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開(kāi)發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來(lái)越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來(lái)越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開(kāi)幕式在貴陽(yáng)舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉