Kaj so pKakšna so načela 3D strojnega vida?načela 3D strojnega vida? - Blog

3D-vizija je multidisciplinarno področje, ki vključuje računalniško grafiko, računalniški vid in umetno inteligenco. Njegov cilj je omogočiti strojem razumevanje in obdelavo informacij v tri-dimenzionalnem prostoru, doseganje globinskega zaznavanja, prepoznavanja in razumevanja predmetov in prizorov.

Glavne naloge

3D rekonstrukcija

Ocena globine 3D prizorov ali digitalno vzorčenje površin objektov ter obdelava in prikaz 3D podatkov; monokularna rekonstrukcija, binokularna rekonstrukcija, strukturirana svetlobna-rekonstrukcija, laserska-rekonstrukcija; 3D-rekonstrukcija-velikega obsega, mobilna 3D-rekonstrukcija.

Ocena položaja

Izračun položaja in orientacije kamer ali predmetov v tri-dimenzionalnem fizičnem prostoru in-sledenje v realnem času.

3D razumevanje

Zaznavanje, prepoznavanje in iskanje objektov, kot tudi segmentacija in semantično označevanje prizorov ali objektov.

Delovna načela

3D vizualno slikanje je ena najpomembnejših metod za zaznavanje informacij v industrijskih robotih in jo lahko razdelimo na optične in ne-optične metode slikanja. Trenutno so najbolj razširjene optične metode.

Metoda--časa leta (TOF).

Ta metoda izračuna razdaljo do predmeta z merjenjem časovne razlike med oddajanjem in sprejemom svetlobe. Če za primer vzamemo kamero TOF, vsak piksel uporablja časovno razliko svetlobnega leta, da dobi globino predmeta. Pri klasičnih merilnih metodah detektorski sistem začne meriti čas, ko odda svetlobni impulz, shrani-čas potovanja, ko prejme ciljni svetlobni odmev, in oceni ciljno razdaljo v skladu s formulo.

Razdeljen je na neposredni TOF (DTOF) in posredni TOF (I-TOF). DTOF se običajno uporablja v-sistemih za določanje razdalje v eni točki in doseganje-širokoobmočnega 3D-slikovanja pogosto zahteva tehnologijo skeniranja; I-TOF posredno ekstrapolira čas povratnega potovanja iz časovno-odvisnih meritev jakosti svetlobe, pri čemer odpravlja potrebo po natančnem merjenju časa in je trenutno komercializirana rešitev za elektronske in optične mešalnike, ki temeljijo na TOF kamerah. Slikanje TOF se lahko uporablja za zajemanje 3D-slik s širokim vidnim poljem,-razdaljo, nizko-natančnostjo in-poceni ter se uporablja za zaznavanje okolja v inteligentnih sistemih brez posadke (kot so roboti, vozila brez posadke, brezpilotna letala itd.).

3D slikanje s projekcijo strukturirane svetlobe

3D slikanje s projekcijo strukturirane svetlobe je trenutno glavna metoda za zaznavanje 3D vida pri robotih. Projektor projicira poseben strukturiran svetlobni vzorec na ciljni predmet, kot so črte ali vzorci sivih kod, in kamera zajame sliko, ki jo modulira cilj. Zaradi valovitosti površine predmeta se strukturiran svetlobni vzorec na površini predmeta deformira. Z obdelavo slik in uporabo vizualnih modelov za primerjavo vzorcev pred in po deformaciji ter analizo popačenja vzorca je mogoče izračunati tri{5}}dimenzionalne informacije o koordinatah vsake točke na površini ciljnega predmeta.

V aplikacijah robotskih sistemov z ročnim očesom je za scenarije, kjer ni potrebna visoka natančnost 3D meritev (kot so paletiranje, depaletiziranje in 3D prijemanje), zelo priljubljena metoda projiciranja psevdo-naključnih vzorcev pik za pridobitev ciljnih 3D informacij. Ta metoda se običajno uporablja pri industrijskih pregledih in 3D modeliranju ter lahko hitro pridobi 3D podatke o površini predmeta. Sistem za slikanje s strukturirano svetlobo je sestavljen iz več projektorjev in kamer. Pogoste strukturne oblike vključujejo: en projektor-ena kamera, en projektor-dvojna kamera, en projektor-več kamer, ena kamera-dvojni projektorji in ena kamera-več projektorjev.

Osnovno načelo delovanja 3D-slikovanja s projekcijo strukturirane svetlobe je naslednje: projektor projicira specifičen vzorec strukturirane svetlobe na ciljni objekt, kamera zajame sliko, ki jo modulira cilj, nato pa se 3D-informacije o ciljnem objektu pridobijo z obdelavo slike in vizualnimi modeli. Običajne vrste projektorjev vključujejo: zaslon s tekočimi kristali (LCD), projekcijo z digitalno modulacijo svetlobe (DLP: kot so digitalne mikrozrcalne naprave (DMD)) in lasersko neposredno projekcijo vzorcev LED.

Na podlagi števila projekcij strukturirane svetlobe lahko 3D-slikovno slikanje s projekcijo strukturirane svetlobe razdelimo na metode 3D z enim-posnetkom in metode 3D z več-posnetki. Strukturirana svetloba z enim-posnetkom uporablja predvsem kodiranje s prostorskim multipleksiranjem in kodiranje s frekvenčnim multipleksiranjem. Običajne oblike kodiranja vključujejo: barvno kodiranje, indeksiranje v sivinah, kodiranje geometrijskih oblik in naključne pikčaste vzorce. Trenutno se v aplikacijah robotskih ro-sistemov za scenarije, kjer ni potrebna visoka natančnost 3D-merjanja, kot je paletiziranje, depaletiziranje in 3D-prijem, pogosto uporablja metoda projiciranja psevdo-naključnih vzorcev pik za pridobitev ciljnih 3D-informacij.

Več{0}}metode 3D-posnetkov uporabljajo predvsem kodiranje s časovnim-multipleksiranjem. Običajne oblike kodiranja vzorcev vključujejo: binarno kodiranje, več{4}}fazno-kodiranje s premikom več frekvenc in metode hibridnega kodiranja (kot so Grayeva koda in fazno-obrobe s premikom). Osnovni princip 3D slikanja s strukturirano svetlobo je prikazan na spodnji sliki. S pomočjo računalnika ali posebne optične naprave se ustvari strukturiran svetlobni vzorec, ki se nato z optičnim projekcijskim sistemom projicira na površino testiranega predmeta. Naprava za zajemanje slike (kot je kamera CCD ali CMOS) se uporablja za zajemanje strukturirane svetlobne slike, modulirane in deformirane s površino predmeta. Algoritmi za obdelavo slike se nato uporabijo za izračun ujemanja med vsako slikovno piko na sliki in točkami na konturi predmeta. Končno se tri{13}}informacije o obrisu objekta izračunajo z uporabo modela strukture sistema in njegove tehnologije umerjanja. V praktičnih aplikacijah se običajno uporablja Grayeva kodna projekcija, sinusna fazno-projekcija obrobne projekcije ali hibridna Grayeva koda in sinusna{16}}tehnologija 3D-premika.

Za hrapave površine se lahko strukturirana svetloba neposredno projicira na površino predmeta za vizualno slikovno merjenje; vendar pa za 3D meritve visoko odbojnih gladkih površin in zrcaljenih predmetov strukturirane svetlobne projekcije ni mogoče neposredno projicirati na preskušano površino, 3D meritve pa zahtevajo uporabo tehnik zrcalne refleksije.

V tej shemi se obrobe ne projicirajo neposredno na konturo preskušanega predmeta, temveč na razpršilni zaslon ali pa se za neposredno prikazovanje obrob uporabi zaslon s tekočimi kristali (LCD). Kamera pridobi obrobne informacije, modulirane s spremembami ukrivljenosti svetle površine skozi pot odbite svetlobe, in nato izračuna tri{1}}dimenzionalno morfologijo konture.

Skeniranje 3D slik

Metode skeniranja 3D-slikovanja lahko razdelimo na metode skeniranja razdalje, aktivno triangulacijo in kromatične konfokalne metode. Skeniranje obsega uporablja kolimirani svetlobni žarek za skeniranje celotne ciljne površine za 3D meritve. Tipične metode določanja obsega skeniranja vključujejo: metode eno-točkovnega časa--leta, kot sta določanje obsega z neprekinjeno valovno frekvenčno modulacijo (FM-CW) in določanje obsega impulza (LiDAR); interferometrija laserskega sipanja, kot so interferometri, ki temeljijo na interferenci več-valovnih dolžin, holografski interferenci, interferenci bele svetlobe in načelih pegaste interference; in konfokalne metode, kot sta kromatsko konfokalno in samodejno ostrenje.

Pri 3D-metodah skeniranja z eno-točko je metoda-točkovnega--leta primerna za-skeniranje na velike-razdalje, vendar je natančnost meritev razmeroma nizka, na splošno v milimetrskem območju. Druge-metode enotočkovnega skeniranja vključujejo eno-točkovno lasersko interferometrijo, konfokalno mikroskopijo in eno-točkovno aktivno lasersko triangulacijo. Te metode ponujajo visoko natančnost merjenja, vendar prva zahteva nadzorovano okolje. Črtno skeniranje ponuja zmerno natančnost in visoko učinkovitost. Aktivna laserska triangulacija in kromatska konfokalna mikroskopija sta posebej primerni za 3D meritve na končnem efektorju robotske roke. Aktivna triangulacija temelji na principu triangulacije z uporabo kolimiranega žarka ali enega ali več ravninskih žarkov za skeniranje ciljne površine za 3D meritve.

Svetlobni žarek se običajno pridobi na naslednje načine: z lasersko kolimacijo, cilindrično ali kvadratno površinsko prizmatično ekspanzijo žarka, nekoherentno svetlobo (kot je bela svetloba, svetlobni vir LED), ki se projicira skozi majhne luknje, reže (rešetke) ali koherentno difrakcijo svetlobe. Aktivno triangulacijo lahko razdelimo na tri vrste: eno-točkovno skeniranje, eno-vrstično skeniranje in več-vrstično skeniranje. Trenutno je večina komercialno dostopnih izdelkov za končne efektorje robotskih rok eno{6}}točkovni in eno-linijski skenerji.

Pri več-vrstičnih metodah skeniranja je zanesljiva identifikacija obrobnih številk izziv. Za natančno identifikacijo obrobnih števil se običajno izmenično pri veliki hitrosti slikata dva niza pravokotnih svetlobnih ravnin. To omogoča tudi skeniranje "Flying Triangulation", katerega postopek skeniranja in 3D rekonstrukcije je prikazan na spodnji sliki. Več-vrstična projekcija in eno-flash slikanje ustvarita redek 3D pogled. S skeniranjem vzdolžne in prečne obrobne projekcije se ustvari več zaporedij 3D-pogledov, nato pa se z registracijo 3D-slike ustvari popoln{10}}površinski model 3D z visoko ločljivostjo.

Zdi se, da je kromatska konfokalna mikroskopija sposobna skeniranja in merjenja grobih in gladkih neprozornih in prozornih predmetov, kot so odsevne površine in prozorne steklene površine, in se trenutno pogosto uporablja na področjih, kot je 3D pregled pokrovov mobilnih telefonov. Kromatsko konfokalno skeniranje ima tri vrste: eno-točkovno eno-dimenzionalno absolutno merjenje razdalje skeniranje, več-matrično skeniranje in neprekinjeno linijsko skeniranje. Spodnja slika prikazuje primere merjenja absolutne razdalje in neprekinjenega črtnega skeniranja. Neprekinjeno vrstično skeniranje je prav tako vrsta skeniranja niza, vendar z večjim in gostejšim nizom točk.

Stereo Vision 3D Imaging

Stereo vid se na splošno nanaša na rekonstrukcijo 3D strukture ali informacije o globini ciljnega predmeta s pridobivanjem dveh ali več slik iz različnih zornih kotov. Vizualne znake zaznavanja globine lahko razdelimo na očesne znake in binokularne znake (binokularna dispariteta). Trenutno je stereo vid 3D mogoče doseči z monokularnim vidom, binokularnim vidom, več-vidom in 3D-slikanjem svetlobnega polja (elektronska sestavljena očesna ali matrična kamera). Znaki zaznavanja globine monokularnega vida običajno vključujejo: perspektivo, razlike v goriščni razdalji, slikanje z več-pogledi, okluzijo, sence, paralakso gibanja itd.

Pri robotskem vidu je to mogoče doseči tudi z zrcalnim slikanjem in drugimi oblikami-iz-X metod. Vizualni znaki zaznavanja globine binokularnega vida vključujejo: konvergenčni položaj oči in binokularno neskladje. V strojnem vidu se dve kameri uporabljata za pridobitev dveh slik gledišča istega ciljnega prizora z dveh zornih kotov, nato pa se izračuna razlika ustreznih točk na obeh slikah gledišča, da se pridobijo informacije o 3D globini ciljnega prizora. Tipičen postopek izračuna binokularnega stereo vida vključuje naslednje štiri korake: popravek popačenja slike, popravek parov stereo slik, registracijo slike in izračun zemljevida disparitete triangulacijske reprojekcije.

Multi{0}}vidno slikanje ali več-pogled stereo slikanje uporablja eno ali več kamer za pridobitev več slik istega ciljnega prizora iz več zornih kotov za rekonstrukcijo tri-dimenzionalnih informacij ciljnega prizora.

Stereo slikanje z več-pogledi se v glavnem uporablja v naslednjih scenarijih: uporaba več kamer z različnih zornih kotov za pridobitev več slik istega ciljnega prizora in nato uporaba stereo rekonstrukcije, ki temelji na funkcijah-in drugih algoritmov za pridobitev informacij o globini prizora in prostorski strukturi; z uporabo tehnike strukture-iz-gibanja (SFM) z uporabo iste kamere z nespremenjenimi intrinzičnimi parametri za pridobitev več slik iz različnih zornih kotov za rekonstrukcijo tri{4}}dimenzionalnih informacij ciljnega prizora. Ta tehnologija se običajno uporablja za sledenje velikemu številu kontrolnih točk v ciljnem prizoru, z neprekinjenim obnavljanjem 3D strukturnih informacij prizora ter položaja in položaja kamere. Slikanje svetlobnega polja se razlikuje od tradicionalnih principov slikanja s kamero. Tradicionalne kamere tvorijo 2D sliko neposredno na slikovni ravnini, potem ko svetloba preide skozi objektiv.

Kamere s svetlobnim poljem dodajo niz mikroleč pred ravnino senzorja. Svetloba, ki vpada skozi glavno lečo, gre ponovno skozi vsako mikrolečo in jo sprejme fotoobčutljivi niz, s čimer pridobi informacije o smeri in položaju svetlobnih žarkov. To omogoča kasnejšo obdelavo rezultatov slikanja, s čimer se doseže učinek »najprej fotografiraj, nato izostri« in omogoči obnovitev tri-dimenzionalne strukture prizora s temi informacijami. Na področjih, kot sta virtualna resničnost in razširjena resničnost, tehnologija slikanja s svetlobnim poljem pomaga zagotoviti bolj realistično vizualno izkušnjo in omogoča natančnejše tri{4}}dimenzionalno zaznavanje in interakcijo s prizorom.

Načelo 3D slikanja s svetlobnim poljem se strukturno razlikuje od načel slikanja tradicionalnih kamer CCD in CMOS. Tradicionalne kamere slikajo svetlobo neposredno na slikovno ravnino, potem ko ta preide skozi objektiv, kar običajno ustvari 2D sliko. Kamere s svetlobnim poljem dodajo niz mikroleč pred ravnino senzorja, zaradi česar svetloba, ki vpada skozi glavno lečo, znova preide skozi vsako mikrolečo in jo sprejme fotoobčutljivo polje, s čimer pridobi informacije o smeri in položaju svetlobnih žarkov. To omogoča naknadno-obdelavo rezultatov slikanja, s čimer se doseže učinek »najprej fotografiraj, nato izostri«.