Vuonna konenäkö The louhinta visuaalisen ominaisuuksia (tai visuaalisia ominaisuuksia louhinta Englanti) koostuu matemaattisia muunnoksia lasketaan pikselien digitaalisen kuvan . Visuaaliset ominaisuudet antavat yleensä mahdollisuuden ottaa paremmin huomioon kuvan tietyt visuaaliset ominaisuudet, joita käytetään myöhempään käsittelyyn sovellusten puitteissa, kuten esineiden havaitseminen tai kuvien etsiminen sisällön perusteella . 2010-luvulta lähtien valtaosa tietokonenäön työstä perustuu ominaisuuksiin, jotka konvoluutioverkot oppivat suurissa kuvatietokannoissa syvällisen oppimisen periaatteiden mukaisesti .
Tavallisesti tehdään ero globaalien ominaisuuksien, jotka lasketaan koko kuvan, ja paikallisten ominaisuuksien välillä, jotka lasketaan kiinnostavien kohteiden ympärille . Voimme puhua myös puolipaikallisista ominaisuuksista, kun ne erotetaan kuvan rajoitetuilta alueilta, jotka johtuvat kuvan segmentoinnista alueilla tai yksinkertaisesti mielivaltaisen ruudukon mukaan.
Globaalien ja paikallisten ominaisuuksien erottelu on taksonomista kiinnostusta . Paikalliset piirteet erotetaan sillä, että ne ovat erillisiä, tukevia tukkeille (koska niitä on paljon kuvassa tai alueella) eivätkä vaadi segmentointia. Paikallinen kuvaaja, joka on laskettu kuvan tai segmentoinnin avulla saadun alueen jokaisesta pikselistä ja sitten kertynyt histogrammiin, on kuvan tai alueen yleinen kuvaus .
Kuvien värin huomioon ottaminen on historiallisesti ollut yksi ensimmäisistä ominaisuuksista, joita käytetään sisältöpohjaisessa kuvantutkimuksessa, ja tuottaa silti joskus upeita tuloksia tietyin perustein. Se oli vuonna 1991, että Swain ja Ballard ehdottivat värihistogrammin käyttöä tällaiseen tehtävään. Se edustaa kuvan värien kokonaisjakaumaa. Sen laskenta koostuu valitun väriavaruuden kvantifioinnista ( esimerkiksi RGB ), jota seuraa näin muunnettujen pikselien histogrammin laskeminen. Esimerkiksi, jos tarkastellaan klassista RGB-kuvaa ja kvantisoidaan kukin väritaso 4 altaaseen, tuloksena olevalla histogrammilla on yksi ulottuvuus . Jos kuva on alun perin koodattu 24 bitillä (kunkin tason arvo on aikavälillä ), 64-bittisen värin histogrammi voidaan esittää "kuutiona" :
Punainen | |||||||||||||||||
0-63 | 64-127 | 128-191 | 192 - 255 | ||||||||||||||
Vihreä | Vihreä | Vihreä | Vihreä | ||||||||||||||
0-63 | 64-127 | 128-191 | 192 - 255 | 0-63 | 64-127 | 128-191 | 192 - 255 | 0-63 | 64-127 | 128-191 | 192 - 255 | 0-63 | 64-127 | 128-191 | 192 - 255 | ||
Sininen | 0-63 | x | x | x | x | x | x | x | x | x | x | x | x | x | x | x | x |
64-127 | x | x | x | x | x | x | x | x | x | x | x | x | x | x | x | x | |
128-191 | x | x | x | x | x | x | x | x | x | x | x | x | x | x | x | x | |
192 - 255 | x | x | x | x | x | x | x | x | x | x | x | x | x | x | x | x |
Kukin väri edustaa yhtä 64 kvantisoidusta lokerosta ja x on sitten tätä lokeroa vastaavan kuvan pikselimäärä. Käytännössä tätä kuvaajaa edustaa yleensä yksiulotteinen 64-ulotteinen vektori.
oktaavi koodi lasketaan väri histogrammi % I = double ( imread('xxx.jpg')); quant=4; nb_bin=quant^3; Iq = floor(I/nb_bin); Iq = Iq(:,:,1) + quant*Iq(:,:,2) + quant*quant*Iq(:,:,3); [NN, XX] = hist(Iq(:),nb_bin);Histogrammiesityksestä voidaan johtaa monia kuvaajia, joista useat on sisällytetty MPEG-7- standardin kokeelliseen malliin . Näitä ovat erityisesti:
Jo vuonna 1995 ehdotettiin kuvien luonnehtimiseksi tietyssä väriavaruudessa laskettuja momentteja . Rajoitamme yleensä kaksi ensimmäistä tai kolmea momenttia ( keskiarvo , varianssi , epäsymmetria tai jopa neljännen asteen momentti, jota kutsutaan kurtoosiksi ), mutta ne lasketaan valitun väriavaruuden kussakin kolmessa tasossa. Yksi mahdollinen tarkennus on jakaa kuva ruudukon mukaan ja laskea nämä hetket kussakin solussa.
Väriä pikselin on huomattava , nyt määritellä ne . Tämä tarkoittaa, että kuvan I pikselillä p on väri c . Tarkastellaan a priori kiinteiden pikselien välisen etäisyyden arvoa . Käytetty etäisyys on esimerkiksi määritelty kaksi pikseliä ja mukaan . Korrelogrammi varten ja sitten määritellään:
Tämä heijastaa todennäköisyyttä, että pikseli, joka on k: n etäisyydellä tarkasteltavasta pikselistä, on värillinen . Korrelogrammin koko on .
Autokorrelogrammin määrittelee:
Se vaatii tilaustilaa .
Lomakkeiden kuvaaminen edellyttää alueiden etukäteen tunnistamista. Tämä voi johtua kuvan segmentoinnista tai niiden ääriviivojen havaitsemisesta. Voimme sitten luonnehtia alueita useiden indeksien avulla, kuten niiden pääsuunnan (esimerkiksi ensimmäisen oikean akselin ), symmetrian tai Zernike-momenttien avulla .
Erityisesti käytetty kuvausmenetelmä on Mokhtarianin ehdottama nimeltään Curvature Scale Space. Se koostuu alueen kuvaamisesta sen muodon kaarevuuden vaihteluiden funktiona . Parametrikoordinaattien tasokäyrälle ortonormaalissa koordinaattijärjestelmässä kaarevuus ilmaistaan:
.Tämä kuvaus on muuttumaton kierrosta ja käännöstä varten. Zoomauksen osalta on tarpeen standardoida ainakin ääriviivan pituuden mukaan. Vielä tärkeämpää on, että kuvaaja lasketaan yleensä eri mittakaavoissa, joista kukin vastaa Gaussin ytimen konvoluutiota.
Rakenteen määrittely ei ole ilmeinen ja riippuu asteikosta. Rakenteen käsitteen määrittelemiseksi on kolme lähestymistapaa. Haralickin uraauurtavan työn pohjalta ensimmäinen lähestymistapa pitää tekstuuria stokastisen prosessin tuloksena ja pyrkii kuvaamaan niitä arvojen tilastollisten ominaisuuksien ja pikselien suhteellisten sijaintien suhteen.
Toisessa lähestymistavassa oletetaan perustavanlaatuisten primitiivien olemassaolo, mikä mahdollistaa kuvioiden kuvailun , kuten Juleszin määrittelemät tekstit. Täten tiettyä tekstuuria kuvataan näiden primitiivien monimutkaiseksi yhdistelmäksi, joka ilmaistaan esimerkiksi kaavioilla .
Uudempi lähestymistapa on pikemminkin visuaalisen havainnon innoittama ja pyrkii selittämään tekstuurin muodostumisprosessin ihmisen näkökulmasta.
Rakenne voidaan kuvata tilastollisesti ottamalla huomioon, kuinka kuvan harmaat tasot järjestyvät suhteessa toisiinsa. Pidämme paikkaoperaattorin s tekee mahdolliseksi määritellä matriisi , joka laskee kuinka monta kertaa pikselin harmaa taso i on läsnä asemassa p pikselin tason j . Jos matriisi normalisoidaan 0: n ja 1: n välillä, puhumme harmaan tason rinnakkaismatriisista . Kahden pikselin suhteellinen sijainti voidaan määrittää myös kulmalla ja etäisyydellä d . Esimerkiksi, jos tarkastellaan kolmea mahdollista harmaatasoa ja määrittämäni kuvan:
Ja operaattori on oikealla puolella (määritelty myös kulmalla ja pikselietäisyydellä), niin (ei-normalisoitu) rinnakkaismatriisimatriisi on:
3 matriisin merkityksenannon että löydämme kolme kertaa pikselin arvon 2 (siis kolmas sarake) oikealle pikselin arvon 1 (siis toisessa rivissä).
Tästä rinnakkaismatriisimatriisista on mahdollista määritellä monia kuvaajia, kuten tässä taulukossa luetellut kuvaimet:
Operaattori | Formulaatio |
---|---|
Maksimi | |
K- järjestyksen ero | |
Haje | |
Yhtenäisyys |
Toinen laajasti käytetty tilastollinen lähestymistapa on MSAR-malli (Multiresolution Sim samanaikaiset autoregressiiviset mallit), jota käytetään tekstuurin tunnistamisen lisäksi luonnon kohtausten tunnistamiseen.
Rakenteellinen lähestymistapaTämä lähestymistapa olettaa, että on olemassa perustavanlaatuisia primitiivejä kuvioiden kuvailemiseksi. Yksi ensimmäisistä esimerkeistä tällaisista primitiivistä oli Juleszin ehdottamat tekstit. Annettua tekstuuria kuvataan näiden primitiivien monimutkaisena yhdistelmänä, ilmaistuna esimerkiksi kaavioilla . Näitä kuvaajia voidaan sitten käyttää tekstuurin kuvaajana.
Spektrinen lähestymistapaJaksollisuuden ja muiden säännöllisyyksien ilmentyminen kuvassa tai signaalissa tapahtuu luonnollisesti spektrianalyysin puitteissa . Siten kuvan erillinen Fourier-muunnos voi olla perusta kuvailijoiden tekemiselle. On kuitenkin yleisempää käyttää sarjaa Gabor-suodattimia, jotka on järjestetty useisiin mittakaavoihin ja suuntiin. Tämä mahdollistaa erityisesti "tärkeimpien havainto-ominaisuuksien" tunnistamisen. Työ on osoittanut, että tällaiseen spektrikuvaan perustuva kuvaaja voisi selittää luonnon kohtauksen hallitsevan tilarakenteen.
Vaihtoehto Fourier-muunnokselle on diskreetin kosinimuunnoksen (DCT) laskeminen . Käytännössä DCT-kertoimiin perustuvat kuvaimet ovat mahdollistaneet sisä- ja ulkokuvien, kaupunkimaisemien kuvien erottamisen luonnonmaisemista ja yhdessä muiden kuvaajien kanssa useiden luontokohteiden luokkien samanaikaisesti.
Kuvan luonnehdinta voidaan laskea rajoitetusti pikseleinä. Tätä varten on ensin tarpeen tunnistaa kuvan kiinnostavat alueet ja sitten laskea ominaisvektori kullekin näistä alueista. Nämä kiinnostavat alueet ovat esimerkiksi kuvan reunat tai huomionarvoiset kohdat (suurikontrastiset alueet). Ne voivat olla myös pistettä, jotka otetaan satunnaisesti tai säännöllisesti kuvasta (ns. Tiheä näytteenotto ).
Ominaisuusvektori sisältää toisinaan ilmaisun tietoja, kuten reunan suunnan tai gradientin suuruuden kiinnostavalla alueella. Yleensä pikselin ominaisvektori lasketaan tämän pikselin naapurustolle, toisin sanoen tälle pikselille keskitetystä kuvasta. Se voidaan laskea eri asteikoilla zoomauskertoimen poistamiseksi. Tällä hetkellä laskettujen paikallisten ominaisuuksien joukossa on aiemmin globaalisti käytettyjä malleja, kuten värihistogrammit tai vektorit, jotka vastaavat harmaatasojen gradienttien suuntaa.
Tietyt menetelmät, kuten SIFT tai SURF, sisältävät sekä kiinnostavan alueen havaitsemisen että ominaisvektorin laskemisen kullakin näistä alueista. Ominaisvektorin osalta SIFT: t ovat karkeasti histogrammi gradientin orientaatioista ja SURF: t koostuvat Haar- aallonpolttoainelaskennasta . Vastaavasti paikalliset bittikuviot ovat kuvan paikallisten harmaatasojen samanaikainen esiintyminen ja HOG: t ovat suuntautuneita gradienttihistogrammeja, melko samanlaisia kuin SIFT: t, laskettuna tiheällä näytteenotolla.
Kuvan kuvauksella paikallisten ominaisuuksien avulla on yleensä vaihteleva ulottuvuus poimittujen kiinnostavien kohteiden lukumäärän mukaan (itse asiassa tämä luku kertoo paikallisen kuvaajan ulottuvuuden). Tällainen esitys ei siksi sovellu perinteisten oppimisalgoritmien ( SVM , tehostaminen jne.) Syöttämiseen . Palata edustus vektori tilaan kiinteän koon, se käyttää kuvaajia aggregoitumisen tekniikoita, kuten ne, joilla on pussit sanojen ( pussi visterms ). Tällaisen kertymisen tulos on siten kuvan tai kuvan osan (alueen) yleinen ominaisuus.
Vuonna 2012 voitettiin ImageNet Large Scale Visual Recognition Challenge -kampanja kansainvälisessä arviointikampanjassa käyttäen konvoluutioverkkoa (CNN), joka opittiin viimeisimpien syvällisen oppimisen edistysaskeleiden avulla . Suorituskyvyn parantuminen on erityisen merkittävää verrattuna aiempiin vuosiin. Pian sen jälkeen osoitetaan, että ImageNetissä valmiiksi opittua konvoluutioverkon kerrosta voidaan käyttää kuvan esitysvektorina oppimisen siirtomallin mukaisesti ja saavuttaa siten suorituskyky koskaan ennen. kuvia tietokoneen näkökentältä. Tästä ajankohdasta lähtien suurin osa kenttätyöstä käyttää luonnollisista kuvista konvoluutioverkon avulla opittuja ominaisuusvektoreita ja "käsin nimetyistä" ominaisuuksista tulee hyvin vähäisiä lukuun ottamatta. Hyvin spesifisen sovelluksen alueita.
Edellä selitettyjen menetelmien mukaisesti erotettujen kuvien ominaisuuksia käytetään monilla tietokonenäköalueilla.
Liittyvä selityksin varustettua kuvaa, niitä voidaan käyttää tulona ohjattu oppiminen algoritmi varten luokitusta . Tätä voidaan käyttää erityisesti niiden sisällön ja erityisesti kuvassa olevien esineiden havaitsemiseen . Samalla tavalla, mutta tarkemmilla alueilla, niitä voidaan käyttää kasvojen tai ihmisten havaitsemiseen .
Voidakseen toimia kuvan allekirjoituksena, näitä kuvaajia käytetään myös kuvien etsimiseen sisällön mukaan .
Yleisesti ottaen nämä ovat perustekniikoita, joita käytetään monilla tietokonenäön aloilla: robotiikka , videovalvonta , konenäkö , optinen merkintunnistus jne.