雖然最近注意力已經(jīng)不可遏制地被神經(jīng)科學、大腦記憶機制和各種畢業(yè)活動吸引過去了,但是還是覺得有必要把這段時間雙目視覺方面的進展總結一下。畢竟從上一篇博文發(fā)表之后,很多同仁發(fā)E-mail來與我討論,很多原來的疑團,也在討論和一步步的試驗中逐漸解決了。
開篇之前,首先要感謝maxwellsdemon和wobject,沒有和你們的討論,也就沒有此篇的成文。
說到雙攝像頭測距,首先要復習一下測距原理,把Learning OpenCV翻到416和418頁,可以看到下面兩幅圖
圖1. 雙攝像頭模型俯視圖
圖2, 雙攝像頭模型立體視圖
圖1解釋了雙攝像頭測距的原理,書中Z的公式如下:
在OpenCV中,f的量綱是像素點,Tx的量綱由定標棋盤格的實際尺寸和用戶輸入值確定,一般總是設成毫米,當然為了精度提高也可以設置為0.1毫米量級,d=xl-xr的量綱也是像素點。因此分子分母約去,z的量綱與Tx相同
圖2解釋了雙攝像頭獲取空間中某點三維坐標的原理。
可以看到,實際的坐標計算利用的都是相似三角形的原理,其表達式就如同Q矩陣所示。
空間中某點的三維坐標就是(X/W, Y/W, Z/W)。
因此,為了精確地求得某個點在三維空間里的距離,我們需要獲得的參數(shù)有焦距f、視差d、攝像頭中心距Tx。
如果還需要獲得X坐標和Y坐標的話,那么還需要額外知道左右像平面的坐標系與立體坐標系中原點的偏移cx和cy。其中f, Tx, cx和cy可以通過立體標定獲得初始值,并通過立體校準優(yōu)化,使得兩個攝像頭在數(shù)學上完全平行放置,并且左右攝像頭的cx, cy和f相同(也就是實現(xiàn)圖2中左右視圖完全平行對準的理想形式)。而立體匹配所做的工作,就是在之前的基礎上,求取最后一個變量:視差d(這個d一般需要達到亞像素精度)。從而最終完成求一個點三維坐標所需要的準備工作。
在清楚了上述原理之后,我們也就知道了,所有的這幾步:標定、校準和匹配,都是圍繞著如何更精確地獲得f, d, Tx, cx和cy而設計的。
雙目測距的原理就說到這里,為了避免大家看到大段純敘述性的文字頭暈,下面的行文將會以FAQ的形式圍繞著實現(xiàn)雙攝像頭測距過程中碰到的幾點疑惑展開。當然,其中的解答也只是我的個人理解,如有不當,敬請指正。
Q1:標定時棋盤格的大小如何設定,對最后結果有沒有影響?
A:當然有。在標定時,需要指定一個棋盤方格的長度,這個長度(一般以毫米為單位,如果需要更精確可以設為0.1毫米量級)與實際長度相同,標定得出的結果才能用于實際距離測量。一般如果尺寸設定準確的話,通過立體標定得出的Translation的向量的第一個分量Tx的絕對值就是左右攝像頭的中心距。一般可以用這個來驗證立體標定的準確度。比如我設定的棋盤格大小為270 (27mm),最終得出的Tx大小就是602.8 (60.28mm),相當精確。
Q2:通過立體標定得出的Tx符號為什么是負的?
A:這個其實我也不是很清楚。個人的解釋是,立體標定得出的T向量指向是從右攝像頭指向左攝像頭(也就是Tx為負),而在OpenCV坐標系中,坐標的原點是在左攝像頭的。因此,用作校準的時候,要把這個向量的三個分量符號都要換一下,最后求出的距離才會是正的。
但是這里還有一個問題,就是Learning OpenCV中Q的表達式,第四行第三列元素是-1/Tx,而在具體實踐中,求出來的實際值是1/Tx。這里我和maxwellsdemon討論下來的結果是,估計書上Q表達式里的這個負號就是為了抵消T向量的反方向所設的,但在實際寫OpenCV代碼的過程中,那位朋友卻沒有把這個負號加進去。(一家之言,求更詳細的解釋)
Q3:cvFindStereoCorrespondenceBM的輸出結果好像不是以像素點為單位的視差?
A:在OpenCV2.0中,BM函數(shù)得出的結果是以16位符號數(shù)的形式的存儲的,出于精度需要,所有的視差在輸出時都擴大了16倍(2^4)。其具體代碼表示如下:
dptr[y*dstep] = (short)(((ndisp - mind - 1 + mindisp)*256 + (d != 0 ? (p-n)*128/d : 0) + 15) >> 4);
可以看到,原始視差在左移8位(256)并且加上一個修正值之后又右移了4位,最終的結果就是左移4位
因此,在實際求距離時,cvReprojectTo3D出來的X/W,Y/W,Z/W都要乘以16 (也就是W除以16),才能得到正確的三維坐標信息
Q4:利用雙攝像頭進行測距的時候世界坐標的原點究竟在哪里?
A:世界坐標系的原點是左攝像頭凸透鏡的光心。
說起這個,就不得不提到針孔模型。如圖3所示,針孔模型是凸透鏡成像的一種簡化模型。當物距足夠遠時(遠大于兩倍焦距),凸透鏡成像可以看作是在焦距處的小孔成像。(ref: http://bak1.beareyes.com.cn/2/lib/200110/04/20011004006.htm)
圖3. 針孔模型
在實際計算過程中,為了計算方便,我們將像平面翻轉平移到針孔前,從而得到一種數(shù)學上更為簡單的等價形式(方便相似三角形的計算),如圖4所示。
圖4. 針孔模型的數(shù)學等價形式
因此,對應圖2就可以知道,世界坐標系原點就是左攝像頭針孔模型的針孔,也就是左攝像頭凸透鏡的光心
Q5:f和d的單位是像素,那這個像素到底表示什么,它與毫米之間又是怎樣換算的?
A:這個問題也與針孔模型相關。在針孔模型中,光線穿過針孔(也就是凸透鏡中心)在焦距處上成像,因此,圖3的像平面就是攝像頭的CCD傳感器的表面。每個CCD傳感器都有一定的尺寸,也有一定的分辨率,這個就確定了毫米與像素點之間的轉換關系。舉個例子,CCD的尺寸是8mm X 6mm,分辨率是640X480,那么毫米與像素點之間的轉換關系就是80pixel/mm。
在實際運用中,我們在數(shù)學上將這個像平面等效到小孔前(圖4),這樣就相當于將在透鏡中心點之前假設了一塊虛擬的CCD傳感器。
Q6:為什么cvStereoRectify求出的Q矩陣cx, cy, f都與原來的不同?
A:這個在前文有提到過。在實際測量中,由于攝像頭擺放的關系,左右攝像頭的f, cx, cy都是不相同的。而為了使左右視圖達到完全平行對準的理想形式從而達到數(shù)學上運算的方便,立體 校準所做的工作事實上就是在左右像重合區(qū)域最大的情況下,讓兩個攝像頭光軸的前向平行,并且讓左右攝像頭的f, cx, cy相同。因此,Q矩陣中的值與兩個instrinsic矩陣的值不一樣就可以理解了。
實驗結果:
實驗下來,雖然Block Matching算法本身對精度有所限制,但測距基本能達到能讓人接受的精度,結果如下圖5所示
圖5. OpenCV雙攝像頭測距結果
上圖中,中、左、右三個物體分別被放在離攝像頭50cm, 75cm和90cm的位置?梢钥闯鰷y距的結果相當不錯。當然,上面這幅圖是比較好的結果。由于BM算法的限制,同一點云中相同距離的點一般會有正負2厘米之內的誤差。
圖6是利用雙目攝像頭測物體長寬的結果,可以看出結果似乎不太準確。。。
圖6. OpenCV雙攝像頭測邊長結果
其中,物體寬為117-88=29mm,但實際寬度為5.2cm,物體高位71-13=58mm,但實際高度為13cm。這方面的誤差還是比較難以理解
此外,還有一個問題至今尚未完全理解,就是雙目攝像頭的中心距,為什么采用Tx而不是T向量的長度。因為如果要左右視圖重合區(qū)域最大化的話兩個攝像頭的光軸都要與T垂直才是(如圖7),這樣的話,校正后兩個攝像頭的中心距應該是T才對。不知道我這樣的理解對不對?
圖7. 雙攝像頭立體校準俯視圖