Ominaisuuden poiminta tietokonenäkössä

Vuonna konenäkö The louhinta visuaalisen ominaisuuksia (tai visuaalisia ominaisuuksia louhinta Englanti) koostuu matemaattisia muunnoksia lasketaan pikselien digitaalisen kuvan . Visuaaliset ominaisuudet antavat yleensä mahdollisuuden ottaa paremmin huomioon kuvan tietyt visuaaliset ominaisuudet, joita käytetään myöhempään käsittelyyn sovellusten puitteissa, kuten esineiden havaitseminen tai kuvien etsiminen sisällön perusteella . 2010-luvulta lähtien valtaosa tietokonenäön työstä perustuu ominaisuuksiin, jotka konvoluutioverkot oppivat suurissa kuvatietokannoissa syvällisen oppimisen periaatteiden mukaisesti .

Ominaisuuksien sijainti

Tavallisesti tehdään ero globaalien ominaisuuksien, jotka lasketaan koko kuvan, ja paikallisten ominaisuuksien välillä, jotka lasketaan kiinnostavien kohteiden ympärille . Voimme puhua myös puolipaikallisista ominaisuuksista, kun ne erotetaan kuvan rajoitetuilta alueilta, jotka johtuvat kuvan segmentoinnista alueilla tai yksinkertaisesti mielivaltaisen ruudukon mukaan.

Globaalien ja paikallisten ominaisuuksien erottelu on taksonomista kiinnostusta . Paikalliset piirteet erotetaan sillä, että ne ovat erillisiä, tukevia tukkeille (koska niitä on paljon kuvassa tai alueella) eivätkä vaadi segmentointia. Paikallinen kuvaaja, joka on laskettu kuvan tai segmentoinnin avulla saadun alueen jokaisesta pikselistä ja sitten kertynyt histogrammiin, on kuvan tai alueen yleinen kuvaus .

Yleisesti matalan tason ominaisuudet

Väri

Histogrammi ja johdannaiset

Kuvien värin huomioon ottaminen on historiallisesti ollut yksi ensimmäisistä ominaisuuksista, joita käytetään sisältöpohjaisessa kuvantutkimuksessa, ja tuottaa silti joskus upeita tuloksia tietyin perustein. Se oli vuonna 1991, että Swain ja Ballard ehdottivat värihistogrammin käyttöä tällaiseen tehtävään. Se edustaa kuvan värien kokonaisjakaumaa. Sen laskenta koostuu valitun väriavaruuden kvantifioinnista ( esimerkiksi RGB ), jota seuraa näin muunnettujen pikselien histogrammin laskeminen. Esimerkiksi, jos tarkastellaan klassista RGB-kuvaa ja kvantisoidaan kukin väritaso 4 altaaseen, tuloksena olevalla histogrammilla on yksi ulottuvuus . Jos kuva on alun perin koodattu 24 bitillä (kunkin tason arvo on aikavälillä ), 64-bittisen värin histogrammi voidaan esittää "kuutiona" : ${\ displaystyle 4 ^ {3} = 64}$ ${\ displaystyle [0-255]}$ ${\ displaystyle 4 \ kertaa 4 \ kertaa 4}$

		Punainen
		0-63				64-127				128-191				192 - 255
		Vihreä				Vihreä				Vihreä				Vihreä
		0-63	64-127	128-191	192 - 255	0-63	64-127	128-191	192 - 255	0-63	64-127	128-191	192 - 255	0-63	64-127	128-191	192 - 255
Sininen	0-63	x	x	x	x	x	x	x	x	x	x	x	x	x	x	x	x
	64-127	x	x	x	x	x	x	x	x	x	x	x	x	x	x	x	x
	128-191	x	x	x	x	x	x	x	x	x	x	x	x	x	x	x	x
	192 - 255	x	x	x	x	x	x	x	x	x	x	x	x	x	x	x	x

Kukin väri edustaa yhtä 64 kvantisoidusta lokerosta ja x on sitten tätä lokeroa vastaavan kuvan pikselimäärä. Käytännössä tätä kuvaajaa edustaa yleensä yksiulotteinen 64-ulotteinen vektori.

oktaavi koodi lasketaan väri histogrammi % I = double ( imread('xxx.jpg')); quant=4; nb_bin=quant^3; Iq = floor(I/nb_bin); Iq = Iq(:,:,1) + quant*Iq(:,:,2) + quant*quant*Iq(:,:,3); [NN, XX] = hist(Iq(:),nb_bin);

Histogrammiesityksestä voidaan johtaa monia kuvaajia, joista useat on sisällytetty MPEG-7- standardin kokeelliseen malliin . Näitä ovat erityisesti:

hallitseva väri : ilmoittaa kuvan hallitsevan värin laskettuna korkeimman arvon sisältävän astian värinä. Väriavaruus voi olla mitä tahansa teoriassa, mutta HSV: n käyttö antaa mielenkiintoisia tuloksia.
skaalattava väri : tämä on värihistogrammin Haar-muunnos HSV- tilassa , mikä johtaa erittäin kompaktiin koodiin.
värirakenne : tämä on “paikallinen” värihistogrammi. Sen rakenne on identtinen aiemmin esitetyn periaatteen kanssa (globaali värihistogrammi), paitsi että pienennetyn koon ikkuna (8 × 8 pikseliä) kulkee kuvan läpi, kun lasketaan kunkin pikselin värit. Se heijastaa siis joitain tietoja värijakauman alueellisesta rakenteesta.
väriasettelu : histogrammin esityksen diskreetti kosinimuunnos lasketaan ja vain osaa kertoimista voidaan käyttää allekirjoitukseen. Tämä antaa mahdollisuuden saada suhteellisen karkea, mutta erittäin pienikokoinen kuva tai hienompi kuvaaja, mutta vie enemmän tilaa. Tällainen kuvaaja on mielenkiintoinen sovelluksille, jotka edellyttävät tiettyä skaalautuvuutta.

Värihetket

Jo vuonna 1995 ehdotettiin kuvien luonnehtimiseksi tietyssä väriavaruudessa laskettuja momentteja . Rajoitamme yleensä kaksi ensimmäistä tai kolmea momenttia ( keskiarvo , varianssi , epäsymmetria tai jopa neljännen asteen momentti, jota kutsutaan kurtoosiksi ), mutta ne lasketaan valitun väriavaruuden kussakin kolmessa tasossa. Yksi mahdollinen tarkennus on jakaa kuva ruudukon mukaan ja laskea nämä hetket kussakin solussa.

Väriä pikselin on huomattava , nyt määritellä ne . Tämä tarkoittaa, että kuvan I pikselillä p on väri c . Tarkastellaan a priori kiinteiden pikselien välisen etäisyyden arvoa . Käytetty etäisyys on esimerkiksi määritelty kaksi pikseliä ja mukaan . Korrelogrammi varten ja sitten määritellään: ${\ displaystyle p = (x, y) \ sisään I}$ ${\ displaystyle I (p)}$ ${\ displaystyle I_ {c} \ triangleq \ {p | I (p) = c \}}$ ${\ displaystyle p \ sisään I_ {c}}$ ${\ displaystyle d \ sisään [\! [1 \ pistettä n] \!]}$ ${\ displaystyle L _ {\ infty}}$ ${\ displaystyle p_ {1} = (x_ {1}, y_ {1})}$ ${\ displaystyle p_ {2} = (x_ {2}, y_ {2})}$ ${\ displaystyle L _ {\ infty} (p_ {1}, p_ {2}) \ triangleq \ max \ {| x_ {1} -x_ {2} |, | y_ {1} -y_ {2} | \ }}$ ${\ displaystyle i, j \ muodossa [\! [1 \ piste m] \!]}$ ${\ displaystyle k \ muodossa [\! [1 \ dots d] \!]}$

{\ displaystyle \ gamma _ {c_ {i}, c_ {j}} ^ {k} (I) \ triangleq {\ overset {Pr} {p_ {1} \ in I_ {c_ {i}}, p_ {2 } \ sisään I_ {c_ {j}}}} [p_ {2} \ sisään I_ {c_ {j}} | L _ {\ infty} (p_ {1} -p_ {2}) = k]}

Tämä heijastaa todennäköisyyttä, että pikseli, joka on k: n etäisyydellä tarkasteltavasta pikselistä, on värillinen . Korrelogrammin koko on . $c_ {j}$ ${\ displaystyle O (m ^ {2} d)}$

Autokorrelogrammin määrittelee:

{\ displaystyle \ alpha _ {c} ^ {(k)} (I) \ triangleq \ gamma _ {c, c} ^ {k} (I)}

Se vaatii tilaustilaa . ${\ displaystyle O (md)}$

Lomake

Lomakkeiden kuvaaminen edellyttää alueiden etukäteen tunnistamista. Tämä voi johtua kuvan segmentoinnista tai niiden ääriviivojen havaitsemisesta. Voimme sitten luonnehtia alueita useiden indeksien avulla, kuten niiden pääsuunnan (esimerkiksi ensimmäisen oikean akselin ), symmetrian tai Zernike-momenttien avulla .

Erityisesti käytetty kuvausmenetelmä on Mokhtarianin ehdottama nimeltään Curvature Scale Space. Se koostuu alueen kuvaamisesta sen muodon kaarevuuden vaihteluiden funktiona . Parametrikoordinaattien tasokäyrälle ortonormaalissa koordinaattijärjestelmässä kaarevuus ilmaistaan: $\ käsikirjoitus {r (t) = (x (t), y (t))}$

\ gamma (t) = {\ frac {x'y '' - y'x ''} {(x '^ {2} + y' ^ {2}) ^ {{3/2}}}}

Tämä kuvaus on muuttumaton kierrosta ja käännöstä varten. Zoomauksen osalta on tarpeen standardoida ainakin ääriviivan pituuden mukaan. Vielä tärkeämpää on, että kuvaaja lasketaan yleensä eri mittakaavoissa, joista kukin vastaa Gaussin ytimen konvoluutiota.

Rakenne

Rakenteen määrittely ei ole ilmeinen ja riippuu asteikosta. Rakenteen käsitteen määrittelemiseksi on kolme lähestymistapaa. Haralickin uraauurtavan työn pohjalta ensimmäinen lähestymistapa pitää tekstuuria stokastisen prosessin tuloksena ja pyrkii kuvaamaan niitä arvojen tilastollisten ominaisuuksien ja pikselien suhteellisten sijaintien suhteen.

Toisessa lähestymistavassa oletetaan perustavanlaatuisten primitiivien olemassaolo, mikä mahdollistaa kuvioiden kuvailun , kuten Juleszin määrittelemät tekstit. Täten tiettyä tekstuuria kuvataan näiden primitiivien monimutkaiseksi yhdistelmäksi, joka ilmaistaan esimerkiksi kaavioilla .

Uudempi lähestymistapa on pikemminkin visuaalisen havainnon innoittama ja pyrkii selittämään tekstuurin muodostumisprosessin ihmisen näkökulmasta.

Rakenne voidaan kuvata tilastollisesti ottamalla huomioon, kuinka kuvan harmaat tasot järjestyvät suhteessa toisiinsa. Pidämme paikkaoperaattorin s tekee mahdolliseksi määritellä matriisi , joka laskee kuinka monta kertaa pikselin harmaa taso i on läsnä asemassa p pikselin tason j . Jos matriisi normalisoidaan 0: n ja 1: n välillä, puhumme harmaan tason rinnakkaismatriisista . Kahden pikselin suhteellinen sijainti voidaan määrittää myös kulmalla ja etäisyydellä d . Esimerkiksi, jos tarkastellaan kolmea mahdollista harmaatasoa ja määrittämäni kuvan: ${\ displaystyle P_ {ij}}$ $\ theta$

{\ displaystyle I = {\ aloita {pmatrix} 0 & 1 & 2 & 2 \\ 0 & 0 & 1 & 2 \\ 0 & 0 & 1 & 2 \\ 0 & 0 & 0 & 1 \\ 0 & 0 & 1 ja 1 \\\ end {pmatrix}}}

Ja operaattori on oikealla puolella (määritelty myös kulmalla ja pikselietäisyydellä), niin (ei-normalisoitu) rinnakkaismatriisimatriisi on: $\ theta = 0$ $d = 1$

{\ displaystyle C = {\ begin {pmatrix} 5 & 5 & 0 \\ 0 & 1 & 3 \\ 0 & 0 & 1 \\\ end {pmatrix}}}

3 matriisin merkityksenannon että löydämme kolme kertaa pikselin arvon 2 (siis kolmas sarake) oikealle pikselin arvon 1 (siis toisessa rivissä). $VS$

Tästä rinnakkaismatriisimatriisista on mahdollista määritellä monia kuvaajia, kuten tässä taulukossa luetellut kuvaimet:

Operaattori	Formulaatio
Maksimi	${\ displaystyle \ max _ {ij} (C_ {ij})}$
K- järjestyksen ero	${\ displaystyle \ summa _ {i} \ summa _ {j} {c_ {ij} \, (ij) ^ {k}}}$
Haje	${\ displaystyle \ summa _ {i} \ summa _ {j} {c_ {ij} \, loki (c_ {ij})}}$
Yhtenäisyys	${\ displaystyle \ summa _ {i} {\ sum _ {j} {c_ {ij} ^ {2}}}}$

Toinen laajasti käytetty tilastollinen lähestymistapa on MSAR-malli (Multiresolution Sim samanaikaiset autoregressiiviset mallit), jota käytetään tekstuurin tunnistamisen lisäksi luonnon kohtausten tunnistamiseen.

Rakenteellinen lähestymistapa

Tämä lähestymistapa olettaa, että on olemassa perustavanlaatuisia primitiivejä kuvioiden kuvailemiseksi. Yksi ensimmäisistä esimerkeistä tällaisista primitiivistä oli Juleszin ehdottamat tekstit. Annettua tekstuuria kuvataan näiden primitiivien monimutkaisena yhdistelmänä, ilmaistuna esimerkiksi kaavioilla . Näitä kuvaajia voidaan sitten käyttää tekstuurin kuvaajana.

Spektrinen lähestymistapa

Jaksollisuuden ja muiden säännöllisyyksien ilmentyminen kuvassa tai signaalissa tapahtuu luonnollisesti spektrianalyysin puitteissa . Siten kuvan erillinen Fourier-muunnos voi olla perusta kuvailijoiden tekemiselle. On kuitenkin yleisempää käyttää sarjaa Gabor-suodattimia, jotka on järjestetty useisiin mittakaavoihin ja suuntiin. Tämä mahdollistaa erityisesti "tärkeimpien havainto-ominaisuuksien" tunnistamisen. Työ on osoittanut, että tällaiseen spektrikuvaan perustuva kuvaaja voisi selittää luonnon kohtauksen hallitsevan tilarakenteen.

Vaihtoehto Fourier-muunnokselle on diskreetin kosinimuunnoksen (DCT) laskeminen . Käytännössä DCT-kertoimiin perustuvat kuvaimet ovat mahdollistaneet sisä- ja ulkokuvien, kaupunkimaisemien kuvien erottamisen luonnonmaisemista ja yhdessä muiden kuvaajien kanssa useiden luontokohteiden luokkien samanaikaisesti.

Paikalliset ominaisuudet

Kuvan luonnehdinta voidaan laskea rajoitetusti pikseleinä. Tätä varten on ensin tarpeen tunnistaa kuvan kiinnostavat alueet ja sitten laskea ominaisvektori kullekin näistä alueista. Nämä kiinnostavat alueet ovat esimerkiksi kuvan reunat tai huomionarvoiset kohdat (suurikontrastiset alueet). Ne voivat olla myös pistettä, jotka otetaan satunnaisesti tai säännöllisesti kuvasta (ns. Tiheä näytteenotto ).

Ominaisuusvektori sisältää toisinaan ilmaisun tietoja, kuten reunan suunnan tai gradientin suuruuden kiinnostavalla alueella. Yleensä pikselin ominaisvektori lasketaan tämän pikselin naapurustolle, toisin sanoen tälle pikselille keskitetystä kuvasta. Se voidaan laskea eri asteikoilla zoomauskertoimen poistamiseksi. Tällä hetkellä laskettujen paikallisten ominaisuuksien joukossa on aiemmin globaalisti käytettyjä malleja, kuten värihistogrammit tai vektorit, jotka vastaavat harmaatasojen gradienttien suuntaa.

Tietyt menetelmät, kuten SIFT tai SURF, sisältävät sekä kiinnostavan alueen havaitsemisen että ominaisvektorin laskemisen kullakin näistä alueista. Ominaisvektorin osalta SIFT: t ovat karkeasti histogrammi gradientin orientaatioista ja SURF: t koostuvat Haar- aallonpolttoainelaskennasta . Vastaavasti paikalliset bittikuviot ovat kuvan paikallisten harmaatasojen samanaikainen esiintyminen ja HOG: t ovat suuntautuneita gradienttihistogrammeja, melko samanlaisia kuin SIFT: t, laskettuna tiheällä näytteenotolla.

Yhteenveto

Kuvan kuvauksella paikallisten ominaisuuksien avulla on yleensä vaihteleva ulottuvuus poimittujen kiinnostavien kohteiden lukumäärän mukaan (itse asiassa tämä luku kertoo paikallisen kuvaajan ulottuvuuden). Tällainen esitys ei siksi sovellu perinteisten oppimisalgoritmien ( SVM , tehostaminen jne.) Syöttämiseen . Palata edustus vektori tilaan kiinteän koon, se käyttää kuvaajia aggregoitumisen tekniikoita, kuten ne, joilla on pussit sanojen ( pussi visterms ). Tällaisen kertymisen tulos on siten kuvan tai kuvan osan (alueen) yleinen ominaisuus.

Oppimisominaisuudet

Vuonna 2012 voitettiin ImageNet Large Scale Visual Recognition Challenge -kampanja kansainvälisessä arviointikampanjassa käyttäen konvoluutioverkkoa (CNN), joka opittiin viimeisimpien syvällisen oppimisen edistysaskeleiden avulla . Suorituskyvyn parantuminen on erityisen merkittävää verrattuna aiempiin vuosiin. Pian sen jälkeen osoitetaan, että ImageNetissä valmiiksi opittua konvoluutioverkon kerrosta voidaan käyttää kuvan esitysvektorina oppimisen siirtomallin mukaisesti ja saavuttaa siten suorituskyky koskaan ennen. kuvia tietokoneen näkökentältä. Tästä ajankohdasta lähtien suurin osa kenttätyöstä käyttää luonnollisista kuvista konvoluutioverkon avulla opittuja ominaisuusvektoreita ja "käsin nimetyistä" ominaisuuksista tulee hyvin vähäisiä lukuun ottamatta. Hyvin spesifisen sovelluksen alueita.

Sovellukset

Edellä selitettyjen menetelmien mukaisesti erotettujen kuvien ominaisuuksia käytetään monilla tietokonenäköalueilla.

Liittyvä selityksin varustettua kuvaa, niitä voidaan käyttää tulona ohjattu oppiminen algoritmi varten luokitusta . Tätä voidaan käyttää erityisesti niiden sisällön ja erityisesti kuvassa olevien esineiden havaitsemiseen . Samalla tavalla, mutta tarkemmilla alueilla, niitä voidaan käyttää kasvojen tai ihmisten havaitsemiseen .

Voidakseen toimia kuvan allekirjoituksena, näitä kuvaajia käytetään myös kuvien etsimiseen sisällön mukaan .

Yleisesti ottaen nämä ovat perustekniikoita, joita käytetään monilla tietokonenäön aloilla: robotiikka , videovalvonta , konenäkö , optinen merkintunnistus jne.

Huomautuksia ja viitteitä

Esitys mallivirheiden kuvien kuvauksesta {{Arkisto linkki}} : täytä parametri " " , kalvot 22-36.|titre=
Mikolajczyk, K.; Schmid, C., "Paikallisten kuvaajien suorituskyvyn arviointi", Pattern Analysis and Machine Intelligence, IEEE Transactions on, vol.27, no.10, s.1615,1630, lokakuu 2005 (osa 1, rivi 4-5)
MJ Swain, DH Ballard: Väriindeksointi, International Journal of Computer Vision , 1991
Y. Liu, DS Zhang, G. Lu ja W.-Y Ma. Alueellinen kuvahaku havaintoväreillä. Proc. Pacific-Rim Multimedia Conference, s. 931-938, joulukuu 2004.
M. Stricker ja M. Orengo. Värikuvien samankaltaisuus. In In SPIE Conference on Storage and Retrieval for Image and Video Databases III, osa 2420, sivut 381392, helmikuu. 1995.
Mokhtarian, F., ja Mackworth, AK, Tasomaisen käyrän ja kaksiulotteisen muodon mittakaavan mukainen kuvaus ja tunnistaminen, PAMI (8), nro 1, tammikuu 1986, s. 34-43.
Th. Gevers ja AWM Smeulders, Sisältöpohjainen kuvahaku: Yleiskatsaus kirjasta Emerging Topics in Computer Vision, G. Medioni ja SB Kang (Toim.), Prentice Hall, 2004
John R.Smith ja Shih-fu Chang, maailmanlaajuisen kuvan ja videoiden hakukone , julkaisussa Proc. SPIE-tallennus ja haku kuvien ja videoiden tietokannoille, 1997
Haralick R., Shanmugam K. & Dinstein I. (1973) Kuvan luokittelun tekstuurit . IEEE-tapahtumat järjestelmissä, ihmisissä ja kybernetiikassa 3 (6): 610–621.
Weszka J, Rosenfeld Dyer C & A (1976) Vertaileva tutkimus tekstuurimittauksista maaluokitukseen. IEEE-tapahtumat järjestelmissä, ihmisissä ja kybernetiikassa 6: 269–285.
Unser M (1986) Summa- ja erihistogrammit tekstuuriluokituksen määrittämiseksi. PAMI 8 (1): 118–125.
Julesz B (1981) Tekstit, tekstuurin havaitsemisen elementit ja niiden vuorovaikutus. Luonto 290: 91–97.
Chellappa R & Manjunath B (2001) Tekstuurien luokittelu ja segmentointi: ahdistukset, voitot ja kunnianosoitukset. Julkaisussa: Davis L (toim.) Kuvanympäristön perusteet, s. 219–240. Kluwer.
RM Haralick, Kuvan luokittelun tekstuuriominaisuus, IEEE-tapahtumat järjestelmissä, ihmisissä ja kybernetiikassa 3 (1973) (1), s. 610–621
J. Mao ja AK Jain, "Tekstuurien luokittelu ja segmentointi käyttäen moniratkaisuisia samanaikaisia autoregressiivisiä malleja", Pattern Recognit., Voi. 25, s. 173–188, helmikuu 1992.
A.Vailaya, MAT Figeiredo A.Jain ja HJ Zhang. Kuvaluokitus sisältöpohjaiseen indeksointiin. IEEE-tapahtuma kuvankäsittelyssä, osa 10, nro 1, 2001
H. Tamura, S. Mori ja T. Yamawaki. Visuaalista havaintoa vastaavat tekstuurin ominaisuudet. IEEE Transactions on Systems, Man and Cybernetics, voi. SMC-8, ei. 6, 1978, 460 - 473
Aude Oliva, Antonio Torralba, Näkymän muodon mallintaminen: kokonaisvaltainen esitys avaruuskuoresta. International Journal of Computer Vision , Vuosikerta 42 (3): 145 - 175, 2001
M. Szummer ja RW Picard. Sisä-ulkokuvien luokittelu. IEEE: n kansainvälinen työpaja kuvien ja videotietokantojen sisältöpohjaisesta pääsystä. Bombay, Intia, 1998
A.Vailaya, A.Jain ja HJ Zhang. Kuvaluokituksessa: kaupunki vs. maisema. Pattern Recognition, osa 31, nro 12, s. 1921-1935, 1998
J.Sivic ja Andrew Zisserman . Google Video: Tekstin haku lähestymistapa objektien vastaavuuteen videoissa. Julkaisussa Proceedings of the International Conference on Computer Vision , sivut 1470–1477, 2003.