In kone oppiminen , joka on neuroverkko konvoluu- tai verkon neuronien konvoluutio (Englanti CNN tai ConvNet varten Convolutional Neural Networks ) on eräänlainen keinotekoisen neuroverkon asyklisen ( syöttö eteenpäin ), jolloin yhteys kuvio välillä neuronien on saanut vaikutteita visuaalinen aivokuori eläimiä. Neuronien tällä aivojen alueella on järjestetty niin, että ne vastaavat päällekkäisiä alueita, kun laatoitus näkökentässä . Niiden toiminta on innoittamana prosesseistabiologisesti , ne koostuvat monikerroksisesta perceptronipinosta , jonka tarkoituksena on esikäsitellä pieniä määriä tietoa. Konvoluutio-hermoverkoilla on laaja sovellus kuvien ja videoiden tunnistamiseen , suositusjärjestelmiin ja luonnollisen kielen käsittelyyn .
Tarkastellaan yksivärisen kuvan ( 2 ulottuvuutta , leveyttä ja korkeutta) tai värin ( 3 ulottuvuutta ) analyysia, kun otetaan huomioon RGB- kuva, jossa on 3 syvyysyksikköä, joista kolmas vastaa 3 kuvan pinoamista kunkin värin mukaan (punainen, vihreä ja sininen).
Konvoluutioinen hermoverkko koostuu kahdentyyppisistä keinotekoisista hermosoluista, jotka on järjestetty "kerroksiin" peräkkäin käsittelemään tietoa:
Kunkin kerroksen välillä voidaan soveltaa epälineaarista ja pistekorjaavaa käsittelyä tuloksen relevanssin parantamiseksi.
Kaikki prosessointikerroksen lähdöt mahdollistavat välikuvan palauttamisen, mikä toimii perustana seuraavalle kerrokselle.
Kuvan tunnistamisen yhteydessä jälkimmäinen on "päällystetty", toisin sanoen leikattu pienille alueille (nimeltään laatat). Jokainen ruutu käsitellään erikseen keinotekoisella hermosoluilla (joka suorittaa klassisen suodatusoperaation liittämällä painon laatan jokaiseen pikseliin). Kaikilla neuroneilla on samat viritysparametrit. Samaa prosessointia (samat parametrit), hieman siirtyneitä jokaiselle vastaanottokentälle, kutsutaan konvoluutioksi . Tätä neuronikerrosta, jolla on samat parametrit, kutsutaan ”konvoluutioytimeksi”.
Laatan pikselit analysoidaan globaalisti. Värikuvan tapauksessa pikseli sisältää 3 tuloa (punainen, vihreä ja sininen), joita kukin neuroni käsittelee globaalisti. Joten kuvaa voidaan pitää tilavuutena, ja se voidaan merkitä esimerkiksi 30 × 10 × 3 30 pikselin leveydelle, 10 korkeudelle ja 3 syvyydelle, jotka vastaavat 3 kanavaa punaista, vihreää ja sinistä. Yleensä puhumme "panoksen määrästä".
Yleistys (syvyys ja päällekkäisyys)Analysoitu alue on itse asiassa hieman suurempi kuin ruutu ja sitä kutsutaan " vastaanottokentäksi ". Vastaanottokentät ovat siis päällekkäisiä saadakseen paremman kuvan alkuperäisestä kuvasta sekä paremman prosessoinnin yhdenmukaisuuden prosessointikerrosten yli. Päällekkäisyyden määrittelee sävelkorkeus (siirtymä kahden vierekkäisen vastaanottokentän välillä).
Konvoluu- ydin analysoi ominaisuuden syötekuvan. Useiden ominaisuuksien analysoimiseksi pinotaan riippumattomien konvoluutioytimien kerrokset, joista jokainen kerros analysoi kuvan ominaisuuden. Tällä tavoin pinottu kerrosjoukko muodostaa "konvoluutiokäsittelykerroksen", jota pitäisi itse asiassa pitää tilavuutena (usein kutsutaan "ulostulotilavuudeksi"). Käsittelykerrosten lukumäärää kutsutaan konvoluutiokerroksen syvyydeksi (ei pidä sekoittaa konvoluutiohermoverkon syvyyteen, joka laskee konvoluutiokerrosten lukumäärän).
Konvoluutiokerros käsittelee tulotilavuuden tuottaakseen ulostulotilavuuden. Voidaan myös omaksua lähtötilavuus välikuvaksi.
Toisin sanoen, konvoluutiohermoverkossa jokainen reseptorikenttä prosessoidaan yksikerroksisella perceptronilla. Ja kaikki yksikerroksiset perceptronit, jotka liittyvät kaikkiin reseptorikenttiin, on konfiguroitu identtisesti.
Konvoluutioverkkojen suuri etu on yhden painon käyttö, joka liittyy signaaleihin, jotka saapuvat saman konvoluutioytimen kaikkiin hermosoluihin. Tämä menetelmä vähentää muistin jalanjälkeä, parantaa suorituskykyä ja mahdollistaa käännösten käsittelyn muuttumattomuuden. Tämä on konvoluutiohermoverkon tärkein etu monikerroksiseen perceptroniin nähden , joka pitää kutakin hermosolua itsenäisenä ja antaa siten eri painon jokaiselle tulevalle signaalille.
Kun tulon äänenvoimakkuus vaihtelee ajan myötä (video tai ääni), on mielenkiintoista lisätä parametri aikaskaalaa pitkin neuronien parametroinnissa. Tässä tapauksessa puhumme ajallisen viiveen hermoverkosta ( TDNN ).
Muihin kuvaluokitusalgoritmeihin verrattuna konvoluutio-hermoverkot käyttävät suhteellisen vähän esikäsittelyä. Tämä tarkoittaa, että verkko on vastuussa omien suodattimiensa vaihtamisesta yksin (oppiminen ilman valvontaa), mikä ei ole tapana muilla perinteisemmillä algoritmeilla. Alkuasetusten ja ihmisen puuttumisen puuttuminen on CNN: ien suuri etu.
Konvoluutioisten hermoverkkojen suunnittelu seuraa visuaalisten mekanismien löytämistä elävissä organismeissa. Alkuvuodesta 1968 eläintyö osoitti, että visuaalinen aivokuori sisältää monimutkaisia solujärjestelyjä, jotka ovat vastuussa valon havaitsemisesta näkökentän päällekkäisissä osa-alueilla, joita kutsutaan vastaanottaviksi kentiksi. Asiakirjassa tunnistettiin kaksi perussolutyyppiä: yksinkertaiset solut, jotka reagoivat reseptorikentänsä tyypillisiin piikkeihin (suuri kontrasti, korkea intensiteetti jne.); ja monimutkaiset solut, joilla on suuremmat reseptorikentät ja jotka ovat paikallisesti muuttumattomia kuvion tarkassa paikassa. Nämä solut toimivat paikallisina suodattimina sisääntulotilassa.
Néocognitron (in) , esi konvoluutio verkkojen, on kuvattu 1980 asiakirjassa Tämä on ensimmäinen todellinen konvoluutio verkkoon, koska se pakottaa yksikköä, jotka sijaitsevat useissa eri tehtävissä on sama paino. Sen edellinen versio, kognitroni, erosi pääasiassa tämän rajoituksen puuttuessa, mutta siinä oli myös kerrostumia.
Neokognitronia modifioitiin vuonna 1988 aikasignaaleja varten. Sen suunnittelua parannettiin vuonna 1998, yleistettiin vuonna 2003 ja yksinkertaistettiin samana vuonna.
Konvoluutiohermoverkkojen erilaista suunnittelua ehdotettiin vuonna 1988 yksidimensionaalisen elektromyografian signaalihajotuksen soveltamiseksi . Tätä järjestelmää muutettiin vuonna 1989 muilla konvoluutioihin perustuvilla malleilla.
Vuoden 2005 artikkelin, jossa vahvistettiin edun grafiikkasuorittimia ( GPU ) ja koneoppimisen, useita julkaisuja kehittää tätä periaatetta tehdä GPU erittäin tehokas. Vuonna 2012 Ciresan et ai. paransi merkittävästi parhaan suorituskyvyn kirjallisuudessa useita kuva tietokantoja kuten MNIST tietokanta, Norb tietokanta, HWDB1, CIFAR10 aineisto (60000 32 x 32 RGB-leimattu kuvia), ja ImageNet aineisto .
Vaikka monikerroksisilla perceptroneilla (MLP) on tehokas kuvankäsittelyyn, niiden on vaikea käsitellä suuria kuvia johtuen kuvan koon kanssa tapahtuvien yhteyksien määrän eksponentiaalisesta kasvusta, koska kukin neuroni on "täysin kytketty" edellisen ja seuraavan kerroksen kumpaankin neuroniin . Konvoluutiohermoverkot, joiden periaatteen innoittamana on selkärankaisten visuaalinen aivokuori, rajoittavat päinvastoin hermosolujen ja vierekkäisten kerrosten neuronien välisten yhteyksien määrää, mikä vähentää merkittävästi opittavien parametrien määrää. Esimerkiksi syvälle verkolle, kuten AlexNet, yli 90% opittavista parametreista johtuu kolmesta syvimmästä "täysin yhdistetystä" kerroksesta , ja loput liittyvät (5) konvoluutiokerrokseen.
Esimerkiksi, jos otamme kuvan, jonka koko on 32 × 32 × 3 (32 leveää, 32 korkeaa, 3 värikanavaa), yhdellä täysin liitetyllä hermosolulla MLP: n ensimmäisessä piilotetussa kerroksessa olisi 3072 merkintää (32 * 32 * 3 ). 200 × 200-kokoinen kuva johtaisi siten 120 000 merkinnän käsittelyyn hermosolua kohden, josta kerrottuna hermosolujen määrällä tulee valtava.
Konvoluutio-hermoverkkojen tavoitteena on rajoittaa merkintöjen määrää säilyttäen samalla luonnollisten kuvien voimakas ”paikkatietopaikallinen” korrelaatio. Toisin kuin MLP: t, CNN: llä on seuraavat erottavat piirteet:
Yhdessä nämä ominaisuudet antavat konvoluutiohermoverkoille paremman kestävyyden arvioitaessa oppimisongelmien parametreja, koska kiinteän oppimiskorpuskokon kohdalla datamäärä parametria kohden on suurempi. Painonjako antaa myös mahdollisuuden vähentää huomattavasti opittavien vapaiden parametrien määrää ja siten verkon toiminnan muistivaatimuksia. Muistin pienentäminen mahdollistaa suurempien verkkojen oppimisen ja siten usein tehokkaamman.
Konvoluutioinen hermoverkkoarkkitehtuuri muodostuu pinosta prosessointikerroksia:
Konvoluutiokerros on CNN: n peruselementti. Yksityiskohdat sen toiminnasta on määritelty seuraavissa kappaleissa.
AsetusKonvoluutiokerroksen (jota kutsutaan myös ulostulotilavuudeksi) kokoa varten käytetään kolmea hyperparametriä : syvyys , sävelkorkeus ja marginaali .
Jos tulokuvaan askel ja marginaali mahdollistavat hallittavien vastaanottokenttien lukumäärän (käsittelypinta), syvyys mahdollistaa käsityksen lähtötilavuudesta ja samalla tavalla kuin kuva voi olla äänenvoimakkuus, jos otamme värikuvan kolmelle RGB-kanavalle 3 syvyyden, konvoluutiokerros näyttää myös syvyyden ulostulossa. Siksi puhumme pikemminkin "ulostulotilavuudesta" ja "syöttötilavuudesta", koska konvoluutiokerroksen tulo voi olla joko kuva tai toisen konvoluutiokerroksen ulostulo.
Lähtötilavuuden tilakoko voidaan laskea syöttötilavuuden koon , hoitoalueen (vastaanottavien kenttien lukumäärä), sävelkorkeuden mukaan , jolla niitä käytetään, ja marginaalin koon perusteella . Kaava hermosolujen määrän laskemiseksi ulostulotilavuudessa on .
Jos se ei ole kokonainen, perifeerisillä hermosoluilla ei ole yhtä paljon panosta kuin muilla. Siksi on tarpeen lisätä marginaalin kokoa (luoda virtuaaliset panokset uudelleen).
Tarkastelemme usein vaihetta S = 1, joten laskemme marginaalin seuraavasti: jos haluamme saman kokoisen lähtömäärän kuin syöttömäärä. Tässä nimenomaisessa tapauksessa kerroksen sanotaan olevan "paikallisesti kytketty".
Jakaa asetuksetSuodatusparametrien jakaminen saman konvoluutioytimen (laastarin) eri hermosolujen välillä sallii konvoluutiohermoverkolla olla muuttumattomuus prosessoituna kääntämällä. Se perustuu kohtuulliseen oletukseen: jos suodatin on tehokas kuvan vasemmassa yläkulmassa, se on varmasti yhtä tehokas oikeassa alakulmassa. Siksi suodattimen (laastarin) arvot on jaettava kaikille konvoluutiokerroksen hermosoluille.
Jos korjaustiedoston elementistä on hyötyä laskettaessa tietyssä tilassa avaruudessa, sen pitäisi olla hyödyllinen myös eri paikassa. Toisin sanoen, kun otetaan huomioon konvoluutiokerroksen kaksiulotteinen kerros (syvyys 1), kaikilla sen neuroneilla on samat painot ja poikkeamat.
Koska kaikilla hermosoluilla yhdessä syvyysleikkeessä (ydin) on sama laastari, näiden laikkujen katsotaan yhtenevän tuloon. Tämän kääntymisen tulos on välikuva. Useat ytimen / korjausparit mahdollistavat prosessointikerroksen rakentamisen ja välikuvan tuottamisen. Useita prosessointikerroksia voidaan pinota lopullisen kuvan tuottamiseksi.
Tapauksissa, joissa analysoidulla kuvalla on määritelty paikkarakenne (kasvot esimerkiksi silmät ylöspäin, leuka alas jne.), Parametrien jakamisen hypoteesi menettää merkityksensä. Tässä tapauksessa on tavallista rentouttaa parametrien jakojärjestelmä ja korvata konvoluutiokerros paikallisesti yhdistetyllä kerroksella.
Toinen tärkeä CNN-palvelujen käsite on yhdistäminen, joka on kuvan alinäytteenoton muoto. Syötetty kuva leikataan sarjaksi suorakulmioita, joissa kummallakin puolella on n pikseliä, jotka eivät ole päällekkäisiä (poolointi). Jokainen suorakulmio voidaan nähdä laatana. Laatan ulostulossa oleva signaali määritetään ruudun eri pikselien ottamien arvojen funktiona.
Yhdistäminen pienentää välikuvan tilakokoa ja vähentää siten parametrien määrää ja laskentaa verkossa. Siksi on tavallista lisätä jaksoittain yhdistämiskerros konvoluutiohermoverkkoarkkitehtuurin kahden peräkkäisen konvoluutiokerroksen väliin liikaa oppimisen vähentämiseksi. Yhdistämistoiminto luo myös muodon translaatioinvarianssia.
Poolikerros toimii itsenäisesti jokaisessa sisääntulosyvyysosassa ja muuttaa sen kokoa vain pinnan tasolle. Yleisin muoto on poolikerros, jossa on 2 × 2 kokoruutua (leveys / korkeus) ja lähtöarvona suurin syöttöarvo (katso kaavio). Puhumme tässä tapauksessa "Max-Pool 2x2" (pakkaus kertoimella 4).
On mahdollista käyttää muita yhdistämistoimintoja kuin enimmäismäärä. Voimme käyttää "keskimääräistä poolausta" (lähtö on tulopaikan arvojen keskiarvo), "L2-normipoolia". Itse asiassa, vaikka alun perin käytettiin edun yhdistämistä, kävi ilmi, että max-poolointi oli tehokkaampaa, koska se lisää merkittävästi voimakkaiden aktivaatioiden merkitystä. Muissa olosuhteissa voimme käyttää stokastista yhdistämistä (katso tämän säännön kohtaa ”Regularisointimenetelmät”).
Yhdistäminen antaa suuria voittoja laskentatehossa. Esityksen koon aggressiivisen pienenemisen (ja siten siihen liittyvän tiedon menetyksen) vuoksi nykyinen suuntaus on kuitenkin käyttää pieniä suodattimia (tyyppi 2 × 2). On myös mahdollista välttää yhdistämiskerros, mutta tämä aiheuttaa suuremman ylioppimisen riskin.
Usein on mahdollista parantaa käsittelyn tehokkuutta asettamalla prosessointikerrosten väliin kerros, joka suorittaa matemaattisen toiminnon ( aktivointitoiminto ) lähtösignaaleille. Meillä on erityisesti:
Usein Relu-korjaus on edullinen, koska se johtaa hermoverkkokoulutukseen useita kertoja nopeammin tekemättä merkittävää eroa yleistystarkkuudessa.
Usean konvoluutiokerroksen ja maksimaalisen yhdistämisen jälkeen korkean tason päättely hermoverkossa tapahtuu täysin yhdistettyjen kerrosten kautta. Täysin yhdistetyn kerroksen neuroneilla on yhteydet edellisen kerroksen kaikkiin ulostuloihin (kuten säännöllisesti havaitaan säännöllisissä hermoverkoissa). Niiden aktivointitoiminnot voidaan sen vuoksi laskea matriisikertolaskulla, jota seuraa polarisaatiosiirto.
Häviökerros määrittää kuinka verkon vetäminen rankaisee odotetun ja todellisen signaalin välistä kuilua. Normaalisti se on verkon viimeinen kerros. Siellä voidaan käyttää erilaisia häviötoimintoja, jotka soveltuvat eri tehtäviin. " Softmax " -tappiota käytetään ennustamaan yksi luokka K: n keskenään sulkevien luokkien joukossa. Sigmoidista ristiin entropian menetystä käytetään ennustamaan K: n riippumattomat todennäköisyysarvot . Euklidista tappiota käytetään palautumaan todellisiin arvoihin vuonna .
Konvoluutiohermoverkkoarkkitehtuurin yleisin muoto pinoa muutaman Conv-ReLU-kerroksen, seuraa niitä Pool-kerroksilla ja toistaa tätä mallia, kunnes tulo romahtaa riittävän pieneen tilaan. Yhdessä vaiheessa on tavallista sijoittaa täysin yhdistetyt kerrokset (FC). Viimeinen täysin kytketty kerros on kytketty lähtöön. Tässä on joitain yleisiä konvoluutiohermoverkkoarkkitehtuureja, jotka seuraavat tätä mallia:
CONV-kerrosten pinoaminen pienillä poolisuodattimilla mahdollistaa tehokkaamman käsittelyn ja vähemmän parametreja. Haittana on kuitenkin se, että vaaditaan enemmän laskentatehoa (sisällyttämään kaikki CONV-kerroksen välitulokset).
Konvoluutiohermoverkot käyttävät enemmän hyperparametreja kuin tavallinen monikerroksinen perceptroni. Vaikka tavanomaiset säännöt oppimisnopeudesta ja laillistamisen vakioista ovat edelleen voimassa, on kuitenkin otettava huomioon käsitteet suodattimien lukumäärästä, niiden muodosta ja suurimman mahdollisen yhdistämisen muodosta.
Kun välikuvien koko pienenee käsittelyn syvyyden myötä, tulon lähellä olevilla kerroksilla on yleensä vähemmän suodattimia, kun taas lähempänä ulostuloa olevilla kerroksilla voi olla enemmän. Kunkin kerroksen laskutoimituksen tasaamiseksi ominaisuuksien määrän ja käsiteltyjen pikselien määrän tulo valitaan yleensä karkeasti vakiona kerrosten yli. Syöttötietojen säilyttämiseksi olisi välttämätöntä pitää välilähtöjen määrä (välikuvien määrä kerrottuna pikselipaikkojen lukumäärällä) kasvavan (laajassa merkityksessä) kerrokselta toiselle.
Välikuvien määrä ohjaa suoraan järjestelmän tehoa, riippuu käytettävissä olevien esimerkkien lukumäärästä ja prosessoinnin monimutkaisuudesta.
Suodatinmuodot vaihtelevat suuresti kirjallisuudessa. Ne valitaan yleensä tietojoukon perusteella. Parhaat tulokset MNIST-kuvista (28x28) ovat yleensä ensimmäisen kerroksen 5x5-alueella, kun taas luonnollisissa kuva-aineistoissa (joissa on usein satoja pikseleitä kussakin ulottuvuudessa) käytetään yleensä suurempia ensimmäisen kerroksen suodattimia, joiden koko on 12 × 12 tai jopa 15 × 15.
Haasteena on siis löytää oikea tarkkuustaso, jotta voidaan luoda abstrakteja sopivassa mittakaavassa ja mukauttaa jokaiseen tapaukseen.
Tyypilliset arvot ovat 2 × 2. Erittäin suuret syöttömäärät voivat oikeuttaa 4 × 4-yhdistämisen ensimmäisiin kerroksiin. Suurempien muotojen valinta vähentää kuitenkin signaalin kokoa huomattavasti ja voi johtaa liian suuren tiedon menetykseen.
Koneoppimisessa laillistaminen on prosessi, jonka tarkoituksena on parantaa oppimisalgoritmin yleistystehoa eli vähentää sen virheitä testinäytteissä. Tämä voidaan mahdollisesti saavuttaa oppimisvirheen kustannuksella. Tällaisen menetelmän tarkoituksena on välttää liikaa oppimista, joka johtuu mallin liiallisesta mukauttamisesta koulutustietoihin. Vuodesta näkökulmasta bias / varianssi kompromisseja yli-oppiminen kuvaa malli pystyy mukautumaan hyvin mihin tahansa opetusjoukolla (alhainen bias), mutta olisi voimakkaasti parametreja muutetaan (paino) sopeutua toiseen koulutukseen aineisto (suuri varianssi).
Keskeyttämisen menetelmä koostuu ”deaktivointi” lähdöt neuronien satunnaisesti (ennalta määrätyllä todennäköisyydellä, esimerkiksi 0,5 piilotettuja kerroksia ja 0,8 tulokerroksen) aikana oppimisen vaiheessa. Tämä tarkoittaa erilaisten mallien simulointia ( pussitusta ) ja niiden oppimista yhdessä (vaikka yhtäkään ei opita päästä päähän). Jokainen hermosolu on mahdollisesti passiivinen oppimisen iteraation aikana, mikä pakottaa jokaisen yksikön "oppimaan hyvin" muista riippumatta ja välttämään siten "sopeutumista". Keskeyttäminen voi nopeuttaa oppimista.
Testivaiheessa kirjoittajat ehdottavat painottamaan jokaista opittua painoa sen aktivoitumisen todennäköisyyden avulla oppimisen aikana. Esimerkiksi pudotuksen todennäköisyydellä 0,5 tämä tarkoittaa painojen jakamista kahdella.
Keskeyttämistekniikkaa käytetään erityisesti kuvantunnistusjärjestelmissä, äänentunnistusjärjestelmissä, asiakirjojen luokittelussa ja biologian laskentaan liittyvissä ongelmissa.
DropConnectDropConnect on vaihtoehto keskeyttämisen , joka koostuu estämään yhteyden (vastaa synapsi), ja tämä aina sattumanvaraisesti. Tulokset ovat samanlaisia (nopeus, kyky yleistää oppimista) kuin keskeyttävät , mutta osoittavat eroa yhteyspainojen kehityksen suhteen. "Täysin yhdistettyä" kerrosta, jossa on DropConnect, voidaan verrata "hajanaiseen" yhteyskerrokseen.
Stokastisessa pooloinnissa käytetään samaa periaatetta kuin Max-poolingissa, mutta valittu lähtö otetaan satunnaisesti multinomisen jakauman mukaisesti, joka määritetään poolin osoittaman vyöhykkeen aktiivisuuden mukaan.
Itse asiassa tämä järjestelmä on samanlainen kuin Max-poolingin tekeminen suurella määrällä samanlaisia kuvia, jotka vaihtelevat vain paikallisten muodonmuutosten mukaan. Tätä menetelmää voidaan pitää myös sopeutumisena kuvan elastisiin muodonmuutoksiin. Siksi tämä menetelmä on erittäin tehokas MNIST-kuvissa (käsinkirjoitettuja numeroita edustavien kuvien tietokanta). Stokastisen yhdistämisen vahvuus on nähdä sen suorituskyky kasvavan eksponentiaalisesti verkon kerrosten määrän kanssa.
Keinotekoiset tiedotYlioppimisen (hermoverkon liikajäykkyyden) rajoittamiseksi on mahdollista hieman muokata jo olemassa olevan datan syöttötietoja. Esimerkiksi vääristämme kuvaa hiukan tai muutamme sen kokoa uuden harjoittelukuvan luomiseksi. Voi myös olla mahdollista luoda täysin keinotekoista tietoa. Tavoitteena on lisätä harjoitteludatan (usein kuvien) määrää verkon suorituskyvyn parantamiseksi.
Yksinkertaisin tapa rajoittaa ylivarustusta (konvergenssiongelmien käsittely) on rajoittaa kerrosten määrää verkossa ja vapauttaa verkon ilmaiset parametrit (yhteydet). Tämä vähentää suoraan verkon tehoa ja ennakointipotentiaalia. Se vastaa nollastandardin käyttöä.
Painon heikkeneminenKonseptina on tarkastella hermosolujen painovektoria (saapuvien signaalien luettelo painoista) ja lisätä siihen virheiden vektori, joka on verrannollinen painojen summaan (normi 1) tai painojen neliöön. (normi 2 tai euklidinen). Tämä virhevektori voidaan sitten kertoa suhteellisuuskertoimella, jota lisätään suurpainovektorien rankaisemiseksi edelleen.
Normin 1 ja normin 2 mukaiset laillistukset voidaan yhdistää: se on ”joustavan verkon laillistuminen” ( elastinen nettosäätö ) .
Painovektorin rajoitusJotkut julkaisut osoittavat, että voi olla hyödyllistä rajoittaa standardin neuronien painotusvektorin: . Itse asiassa painovektori säädetään tavalliseen tapaan, sitten se leikataan projisoidun gradientin algoritmin mukaisesti halutun standardin saavuttamiseksi.
Jos yhdistäminen mahdollistaa hoidon tehokkuuden lisäämisen, se tuhoaa kuvan ja sen sisällön (esim. Nenän ja kasvojen) välisen yhteyden . Tämä suhde voi kuitenkin olla erittäin hyödyllinen (etenkin kasvojentunnistuksessa). Ylivoimalla poolilevyt päällekkäin, on mahdollista määrittää elementin sijainti (esim. Nenä on aina kasvojen keskellä), mutta tämä kääntyvä ylivuoto estää kaiken muun ekstrapoloinnin (vaihtaa kulmaa näkymä, mittakaava ...), toisin kuin mitä ihmisen aivot pystyvät tekemään.
Tähän mennessä tätä rajoitusta on kiertetty muuttamalla harjoittelukuvia hieman (kirkkaus, kulma, koko jne.), Mutta kalliiden oppimisaikojen kustannuksella. Älykäs laatoitus on kuitenkin mahdollista: kokonaiskuva analysoidaan ja kun elementti tunnistetaan, se puretaan kuvasta (rajataan) ja lähetetään seuraavaan kerrokseen. Tämä on hyödyllinen toiminto yksilöiden tunnistamiseksi valokuvasta. Käsittelyn ensimmäinen vaihe tunnistaa kasvot, kun taas toinen yrittää tunnistaa henkilön, joka vastaa näitä kasvoja (vrt. Automaattinen tunnistus Facebookissa julkaistuissa valokuvissa). Voimme verrata tätä operaatiota katseen kohdistamiseen. Kun haluat tunnistaa ohi kulkevan henkilön, katsot häntä silmiin (uudelleenkehys).
Lisäksi elementin läsnäolon ennustaminen on mahdollista sen osien joukon näkemisen ansiosta (jos näen kaksi silmää ja nenää, on hyvät mahdollisuudet kohdata kasvot, vaikka ei näe sitä kokonaan). On mahdollista säätää sadon kokoa ja sijaintia (lineaariset operaatiot) käsittelyn helpottamiseksi ja yleistämiseksi.
(en) Ian J.Goodfellow, Yoshua Bengio ja Aaron Courville, Deep Learning , MIT Press,2016( ISBN 0262035618 , lue verkossa ) [ yksityiskohdat painoksista ]