技術(shù)
導(dǎo)讀:研究人員使用概率編程構(gòu)建了這個(gè)框架,這是一種人工智能方法,能夠讓系統(tǒng)對(duì)檢測(cè)到的物體與輸入數(shù)據(jù)進(jìn)行交叉檢查,以查看攝像機(jī)記錄的圖像是否與任何候選場(chǎng)景可能匹配。
眾所周知,計(jì)算機(jī)視覺(jué)系統(tǒng)有時(shí)會(huì)對(duì)與常識(shí)相悖的場(chǎng)景進(jìn)行推斷。例如,如果機(jī)器人正在處理餐桌的場(chǎng)景,它可能會(huì)完全忽略任何人類(lèi)觀察者都可以看到的碗,認(rèn)為盤(pán)子漂浮在桌子上方,或者誤認(rèn)為叉子正在穿透碗而不是靠著它。
有鑒于此,如果將計(jì)算機(jī)視覺(jué)系統(tǒng)轉(zhuǎn)移到自動(dòng)駕駛汽車(chē)上,風(fēng)險(xiǎn)就會(huì)高得多——例如,這種系統(tǒng)無(wú)法檢測(cè)到緊急車(chē)輛和過(guò)馬路的行人。
為了克服這些錯(cuò)誤,麻省理工學(xué)院(MIT)的研究人員開(kāi)發(fā)了一個(gè)框架,可以幫助機(jī)器像人類(lèi)一樣看世界。他們用于分析場(chǎng)景的新人工智能系統(tǒng)學(xué)習(xí)僅從幾張圖像中感知真實(shí)世界的對(duì)象,并根據(jù)這些學(xué)習(xí)到的對(duì)象感知場(chǎng)景。
研究人員使用概率編程構(gòu)建了這個(gè)框架,這是一種人工智能方法,能夠讓系統(tǒng)對(duì)檢測(cè)到的物體與輸入數(shù)據(jù)進(jìn)行交叉檢查,以查看攝像機(jī)記錄的圖像是否與任何候選場(chǎng)景可能匹配。概率推理允許系統(tǒng)推斷出不匹配是否可能是由于噪聲或場(chǎng)景解釋中的錯(cuò)誤導(dǎo)致的,需要通過(guò)進(jìn)一步處理來(lái)糾正。
這種常識(shí)性的保護(hù)措施使系統(tǒng)能夠檢測(cè)并糾正許多困擾“深度學(xué)習(xí)”方法的錯(cuò)誤,這些方法也已用于計(jì)算機(jī)視覺(jué)。概率編程還可以推斷場(chǎng)景中對(duì)象之間可能的接觸關(guān)系,并使用關(guān)于這些接觸的常識(shí)推理來(lái)推斷對(duì)象的更準(zhǔn)確位置。
“如果你不知道接觸關(guān)系,那么你可以說(shuō)一個(gè)物體漂浮在桌子上方——這將是一個(gè)有效的解釋。作為人類(lèi),我們很明顯知道這在物理上是不現(xiàn)實(shí)的,放在桌子頂部的物體更可能是物體的姿勢(shì)。因?yàn)槲覀兊耐评硐到y(tǒng)知道這種知識(shí),所以它可以推斷出更準(zhǔn)確的姿勢(shì)。這是這項(xiàng)工作的一個(gè)關(guān)鍵見(jiàn)解,”該研究論文的主要作者 Nishad Gothoskar 說(shuō),他是概率計(jì)算項(xiàng)目的電氣工程和計(jì)算機(jī)科學(xué)(EECS)博士生。
研究人員將上述系統(tǒng)命名為“通過(guò)概率編程的3D場(chǎng)景感知(3DP3)”系統(tǒng)。為了分析場(chǎng)景的圖像,3DP3首先了解該場(chǎng)景中的對(duì)象。在只顯示物體的五張圖像后,每張圖像都是從不同的角度拍攝的,3DP3會(huì)學(xué)習(xí)物體的形狀并估計(jì)它在空間中占據(jù)的體積。
Gothoskar說(shuō),“如果我從五個(gè)不同的角度向您展示一個(gè)對(duì)象,您可以很好地表示該對(duì)象。您會(huì)了解它的顏色、形狀,并且能夠在許多不同的場(chǎng)景中識(shí)別該物體?!?/p>
“這比深度學(xué)習(xí)方法的數(shù)據(jù)要少得多。例如,Dense Fusion神經(jīng)對(duì)象檢測(cè)系統(tǒng)需要為每種對(duì)象類(lèi)型提供數(shù)千個(gè)訓(xùn)練示例。相比之下,3DP3只需要每個(gè)對(duì)象幾張圖像,并報(bào)告每個(gè)對(duì)象形狀部分的不確定性?!彼a(bǔ)充說(shuō)。
3DP3系統(tǒng)會(huì)生成一個(gè)圖形來(lái)表示場(chǎng)景,其中每個(gè)對(duì)象都是一個(gè)節(jié)點(diǎn),連接節(jié)點(diǎn)的線表示哪些對(duì)象彼此接觸。這使3DP3能夠更準(zhǔn)確地估計(jì)對(duì)象的排列方式。(深度學(xué)習(xí)方法依賴(lài)于深度圖像來(lái)估計(jì)對(duì)象姿態(tài),但這些方法不會(huì)產(chǎn)生接觸關(guān)系的圖結(jié)構(gòu),因此它們的估計(jì)不太準(zhǔn)確。)
研究人員指出,除了提高自動(dòng)駕駛汽車(chē)的安全性外,這項(xiàng)工作還可以提高計(jì)算機(jī)感知系統(tǒng)的性能,這些系統(tǒng)必須解釋物體的復(fù)雜排列,例如負(fù)責(zé)清潔雜亂廚房的機(jī)器人。
未來(lái),研究人員希望進(jìn)一步推動(dòng)該系統(tǒng),使其能夠從單個(gè)圖像或電影中的單個(gè)幀中了解對(duì)象,然后能夠在不同場(chǎng)景中穩(wěn)健地檢測(cè)該對(duì)象。他們還想探索使用3DP3為神經(jīng)網(wǎng)絡(luò)收集訓(xùn)練數(shù)據(jù)。人類(lèi)通常很難用3D幾何體手動(dòng)標(biāo)記圖像,因此3DP3可用于生成更復(fù)雜的圖像標(biāo)簽。