從電子門鈴、網(wǎng)絡攝像頭,到手機、電腦、汽車,圖像傳感器已遍布我們生活中的各個角落,高清晰度、精細化的圖像已經(jīng)成為了消費者的基本期望。
在這些邊緣設備中,攝像頭收集到的圖像需要先由圖像信號處理器 (ISP)實時處理后再呈現(xiàn)給用戶。然而,如何在高效處理海量數(shù)據(jù)的同時又確保圖像質(zhì)量,對芯片制造商來說既是一個挑戰(zhàn),也是一個機會。
一般來說,ISP 通常作為硬件組件來實現(xiàn),但最近,以色列的一家初創(chuàng)公司Visionary.ai開發(fā)了一種基于AI技術的軟件ISP,據(jù)稱可以有效地解決圖像中的噪聲和靈活性挑戰(zhàn)。
其實,軟件定義圖像質(zhì)量這一理念早在Google Pixel中就開始盛行,從Pixel 2到Pixel 6,谷歌保留了相同的相機和鏡頭硬件,但將改進重點放在圖像處理軟件上。那軟件ISP會成為圖像處理的新常態(tài)嗎?
了解圖像信號處理器(ISP)
首先讓我們來簡單了解下圖像信號處理器的工作原理。
圖像傳感器由數(shù)百萬像素組成的半導體矩形構成。這些像素小至1微米(1 x 10^-6m),并配備微小的彩色濾光片。在常見的“拜耳”濾光片陣列中,這些濾光片的顏色為紅、綠或藍。當光子落在半導體表面上時,其中一部分將與硅原子發(fā)生量子相互作用,產(chǎn)生電子空穴對,并因此產(chǎn)生雖然小但可測量的電荷,一般而言,電荷量與落在像素上的光強度成比例。
圖像信號處理器(ISP)從傳感器中獲取紅、綠、藍三色的原始數(shù)據(jù),并對其進行如消除馬賽克效應、調(diào)整顏色、消除鏡頭失真等多項校正處理,并進行有效的數(shù)據(jù)壓縮。原始傳感器數(shù)據(jù)可能具有 12 到 24 位范圍內(nèi)的位深度,而輸出通常是 8 位 RGB 信號。
目前,主流的ISP由幾家供應商提供的IP模塊組成,通過高度并行的計算方式,將算法以硬編碼的方式加入到硬件中,因此成品的靈活性有限。
圖像處理面臨兩大挑戰(zhàn):噪聲和靈活性
圖像傳感器和ISP中的一個特定問題是噪聲,在許多情況下,這是系統(tǒng)設計的限制因素。
噪聲的根本原因在于圖像傳感器本身,當幾乎沒有光子被捕獲的低光照條件下此問題最為嚴重。當落在傳感器上的光子減少,其與硅原子的相互作用也隨之變少,當兩者不一致時,就會產(chǎn)生噪聲。為此,可以添加硅本身產(chǎn)生的熱噪聲——由此隨機產(chǎn)生電子空穴對,并可能被誤認為是光子。噪聲來自對極低電荷水平進行測量和數(shù)字化的過程。很明顯,噪聲會通過多種方式蔓延到系統(tǒng)中。
大家都不喜歡嘈雜的圖片,因為這扭曲了大腦對圖像的理解能力。同樣,在機器視覺系統(tǒng)中,噪聲會阻礙性能,使算法更難以可靠地檢測物體。因此,對于人類和機器視覺,如果存在噪聲,它將限制設備在弱光下運行的能力。此外,它還降低了系統(tǒng)處理高動態(tài)范圍圖片的能力(同一圖像中的極度明亮和黑暗)。
當然,在傳感器設計中有一些解決噪聲的方法,主要基于捕獲更多的光子來增加相對于噪聲的信號。例如,可以增大像素,但這要么需要更大、更昂貴的傳感器,要么需要降低圖像分辨率。當硅的表面積增加時,透鏡的尺寸也會改變,因此我們最終會得到一種不太堅固且更難封裝的器件。另一種方法是增加曝光時間,但這顯然會導致幀率降低并增加運動模糊的風險。此外,我們也可以選擇消除噪音,目前市場上的 ISP 采用幾種不同的信號處理算法,但性能均存在局限性,例如,一些電流降噪器使圖像平滑,因此丟失了圖像中特征的清晰度。
除了噪音性能不佳外,傳統(tǒng)ISP的另一個缺點是靈活性相對不足。將 ISP與傳感器相匹配的調(diào)優(yōu)過程,可能需要數(shù)周甚至數(shù)月。這項調(diào)優(yōu)任務會帶來巨大的成本壓力,并增加圖像系統(tǒng)工程項目的時間周期。
軟件ISP,提升圖像質(zhì)量的關鍵
以色列初創(chuàng)公司 Visionary.ai 開發(fā)的這種基于AI的軟件ISP,其圖像信號處理器是以軟件形式實現(xiàn),而且能夠比傳統(tǒng)算法檢測并消除更多的圖像噪聲。雖然許多計算機視覺研究人員正在開發(fā)更好的方法來檢測和識別圖像中的對象,但 Visionary.ai的創(chuàng)始人意識到,優(yōu)化ISP是提升圖像質(zhì)量的關鍵。一個高效的 ISP 能提供更高品質(zhì)的圖像數(shù)據(jù),從而增強如物體識別和圖像分割等AI任務的效能。
大林上位機機器視覺_蘇州機器視覺培訓_蘇州上位機培訓_蘇州工業(yè)機器人培訓__蘇州電工培訓_蘇州PLC培訓最適合電工及plc編程人員學習的上位機機器視覺課程 大林老師:15861139266(微信同號)
解決“垃圾進垃圾出”的問題已證明可提供更高的精度和改善機器視覺效果。至于智能手機或筆記本電腦視頻質(zhì)量等“人類視覺”應用,Visionary.ai 的實時降噪器可以生成更清晰、更明亮的成像,并提供更準確的著色。
與其他降噪器不同,由 Visionary.ai 開發(fā)的 AI 降噪方法可實時消除噪聲,并能夠?qū)崿F(xiàn) 19dB 的信噪比增強。但是,為了消除最大噪聲量,AI 需要從圖像傳感器訪問原始信號,然后才能被 ISP 修改和壓縮。Visionary.ai 通過創(chuàng)建軟件ISP完全取代傳統(tǒng)硬件 ISP 來應對這一挑戰(zhàn)(圖 1)。
圖 1:軟件ISP實時消除最大噪聲量
由于ISP和降噪功能采用軟件實現(xiàn),這表示在硬件設計中必須配備適當?shù)挠嬎阗Y源。
首先,降噪功能依賴于神經(jīng)網(wǎng)絡。其性能需求會隨工作負載、視頻幀速率以及圖像分辨率發(fā)生變化。在降噪器的早期研發(fā)階段,團隊采用了Nvidia Jetson,這種計算平臺在性能方面有巨大優(yōu)勢,能夠不受限制地進行實驗和研究。但從長遠考慮,他們的目標是開發(fā)一種既滿足硅片面積要求又在功率預算內(nèi)的解決方案,以適合廣泛應用的技術和商業(yè)需求。
當談到AI,尤其是邊緣AI,人們常常會聯(lián)想到為多種推理任務設計的10、100甚至1000 TOPS的性能,但這顯然不適用于降噪應用。新思科技的ARC EV7x系列是一系列的異構嵌入式視覺處理器,它包括了可擴展的矢量DSP核心和神經(jīng)網(wǎng)絡引擎。事實證明,Visionary.ai的降噪算法可以在新思科技 ARC EV72 處理器上非常有效地運行,同時,他們還計劃在 ARC VPX矢量DSP和ARC NPX神經(jīng)處理單元的新版本上運行。
除了ISP算法和降噪功能外,系統(tǒng)還需要一個應用處理器來執(zhí)行控制代碼。對于這種要求不高的工作負載,一個單核的32位處理器即可滿足需求,如新思科技 ARC HS系列(參見圖2)。
圖 2:AI降噪器和軟件ISP可以
使用傳感器的原始數(shù)據(jù)來優(yōu)化性能
對于靈活性問題,軟件定義的ISP可以通過其噪聲和AI功能更快地進行調(diào)諧,并且還可以在其生命周期內(nèi)更新以增強性能。當供應鏈中出現(xiàn)問題,或需使用不同的圖像傳感器模型時,基于新組件的系統(tǒng)重新設計變得更為簡便。
隨著調(diào)諧執(zhí)行速度更快、成本更低,進行應用特定的調(diào)諧已變得可行。例如,針對特定農(nóng)業(yè)應用中對綠色細節(jié)的精準捕獲,或醫(yī)療場景中更準確的紅色識別,都可以進行精細化的優(yōu)化。
總結
搭乘新思科技的ARC EV72 處理器的快船,Visionary.ai帶降噪器的軟件ISP已經(jīng)正式面市,這為消費類電子產(chǎn)品和安全攝像頭的設計帶來了新的可能性。同時,他們也瞄準了汽車、無人機以及醫(yī)療行業(yè)等多個領域。
軟件定義汽車、軟件定義手機……軟件定義的原則正在整個科技領域傳播。雖然軟件圖像處理可能仍處于起步階段,但憑借其優(yōu)勢和靈活性,并且隨著邊緣人工智能和人工智能成像的發(fā)展,軟件ISP正在獲得越來多廠商的關注。