Keinotekoinen hermoverkko

Keinotekoinen neuroverkko , tai keinotekoinen neuroverkko , on järjestelmä, jonka suunnittelu on alunperin kaavamaisesti vaikutteita toiminnan biologisen neuronien , ja joka sen jälkeen lähestyi tilastollisia menetelmiä.

Neuroverkot optimoidaan yleensä todennäköisyystyyppisillä oppimismenetelmillä , erityisesti Bayesin kielellä . Ne sijoittuvat toisaalta tilastosovellusten perheeseen , jota ne rikastavat joukolla paradigmeja, joiden avulla voidaan luoda nopeita luokituksia ( erityisesti Kohosen verkostot ), ja toisaalta tekoälyn menetelmien perheeseen jotta johon ne tarjoavat havaintokyvyn mekanismi riippumaton toteuttajan omia ideoita, ja syöttää tietoja muodollisen loogisen päättelyn (ks Deep Learning ).

Biologisten piirien mallinnuksessa ne mahdollistavat joidenkin neurofysiologisten toiminnallisten hypoteesien tai näiden hypoteesien seurausten vertaamisen todellisuuteen.

Historiallinen

Hermoverkot on rakennettu biologisen paradigman , muodollisen hermosolun (kuten geneettiset algoritmit ovat luonnollisessa valinnassa ). Tämäntyyppiset biologiset metaforat ovat yleistyneet kybernetiikan ja biokybernetiikan ideoiden kanssa . Yann Le Cunin kaavan mukaan hän ei väitä kuvaavansa aivoja enempää kuin lentokoneen siipi, esimerkiksi kopioi linnun aivojen . Erityisesti gliasolujen roolia ei simuloida.

Muodollinen neuroni

Neurologit Warren McCulloch ja Walter Pitts julkaisivat ensimmäisen hermoverkkoja käsittelevän työn 1950-luvun lopulla julkaisemalla perussisällön artikkelin: Mitä sammakon silmä kertoo sammakon aivoille Sitten he rakensivat yksinkertaistetun mallin biologisesta neuronista, jota yleisesti kutsutaan muodolliseksi neuroniksi . Ne osoittivat, että yksinkertaiset muodolliset hermoverkot voivat teoreettisesti suorittaa monimutkaisia loogisia , aritmeettisia ja symbolisia toimintoja.

Muodollinen hermosolu on suunniteltu automaatiksi , jolla on siirtofunktio, joka muuntaa tulonsa lähdöksi tarkkojen sääntöjen mukaisesti. Esimerkiksi neuroni summaa panoksensa, vertaa tuloksena olevaa summaa kynnysarvoon ja reagoi lähettämällä signaalin, jos tämä summa on suurempi tai yhtä suuri kuin tämä kynnys (erittäin yksinkertaistettu malli biologisen neuronin toiminnasta). Nämä neuronit liittyvät myös verkkoihin, joiden yhteystopologia on vaihteleva: proaktiiviset, toistuvat verkot jne. Lopuksi signaalin siirron tehokkuus hermosoluista toiseen voi vaihdella: puhumme "synaptisesta painosta" , ja näitä painoja voidaan moduloida oppimissäännöillä (jotka matkivat verkkojen synaptista plastisuutta. Biologinen).

Muodollisten hermoverkkojen, kuten live-mallin, tehtävänä on tehdä luokitukset nopeasti ja oppia parantamaan niitä. Toisin kuin perinteiset atk- ratkaisumenetelmät , ohjelmaa ei pitäisi rakentaa askel askeleelta sen ymmärtämisen perusteella. Tämän mallin tärkeitä parametreja ovat kunkin neuronin synaptiset kertoimet ja kynnys sekä niiden säätäminen. He määrittelevät verkon kehityksen sen syötetietojen perusteella. On tarpeen valita mekanismi, jonka avulla ne voidaan laskea ja saada ne lähentymään mahdollisuuksien mukaan arvoon, joka varmistaa luokituksen mahdollisimman lähellä optimaalista. Tätä kutsutaan verkon oppimisvaiheeksi. Muodollisten hermoverkkojen mallissa oppiminen merkitsee siis synaptilisten kertoimien määrittämistä, jotka soveltuvat parhaiten esitettyjen esimerkkien luokittelemiseen.

Perceptron

McCullochin ja Pittsin työ ei antanut mitään viitteitä menetelmästä synaptisten kertoimien mukauttamiseksi. Tämä kysymys oppimisen pohdinnan ytimessä vastattiin ensimmäisen kerran kanadalaisen fysiologin Donald Hebbin vuonna 1949 tekemän oppimistyön ansiosta, joka kuvataan kirjassa The Behavior Organisation . Hebb ehdotti yksinkertaista sääntöä, joka mahdollistaa synaptisten kertoimien arvon muokkaamisen niiden yhdistämien yksiköiden aktiivisuuden mukaan. Tätä sääntöä, jota nyt kutsutaan nimellä " Hebb-sääntö ", esiintyy melkein kaikkialla nykyisissä malleissa, jopa kehittyneimmissäkin.

Tästä artikkelista ajatus tarttui mieleen ajan myötä, ja se idasi Frank Rosenblattin mielessä perceptronin mallilla vuonna 1957 . Se on ensimmäinen keinotekoinen järjestelmä, joka pystyy oppimaan kokemuksesta, myös silloin, kun sen ohjaaja tekee joitain virheitä (mikä eroaa selvästi virallisesta loogisesta oppimisjärjestelmästä).

Vuonna 1969 vakava isku kohdistui hermoverkkojen ympärillä kiertävään tiedeyhteisöön: Marvin Lee Minsky ja Seymour Papert julkaisivat teoksen, jossa korostettiin perceptronin joitain teoreettisia rajoituksia ja yleisemmin lineaarisia luokittelijoita , erityisesti epälineaaristen tai yhteysongelmien mahdottomuutta. . He ulottivat nämä rajoitukset implisiittisesti kaikkiin keinotekoisten hermoverkkojen malleihin. Sitten umpikujassa esiintynyt neuroverkkojen tutkimus menetti suuren osan julkisesta rahoituksestaan, ja myös teollisuus kääntyi siitä pois. Tarkoitetut varat tekoälyä olivat melko suunnannut muodollista logiikkaa . Tiettyjen hermoverkkojen kiinteät ominaisuudet sopeutuvissa asioissa (esim. Adaline ), joiden avulla ne voivat mallintaa evoluutiomuodolla itse ilmiöitä, johtavat niiden integroimiseen enemmän tai vähemmän eksplisiittisiin muotoihin adaptiivisten järjestelmien kokonaisuuteen. ; käytetään televiestinnässä tai teollisten prosessien ohjauksessa.

Vuonna 1982 , John Joseph Hopfield , tunnustettu fyysikko, antoi uuden elämän hermostoputken julkaisemalla artikkelin käyttöön uusi malli neuroverkko (täysin toistuva). Tämä artikkeli onnistui useista syistä, joista tärkein on sävyttää hermoverkkojen teoria fyysikoille ominaisella ankaruudella. Neuraalista tuli jälleen hyväksyttävä tutkimuskohde, vaikka Hopfield-malli kärsi 1960-luvun mallien päärajoituksista , erityisesti kyvyttömyydestä käsitellä epälineaarisia ongelmia.

Monikerroksinen Perceptron

Samana päivänä tekoälyn algoritmiset lähestymistavat olivat pettyneitä, eikä niiden sovellukset täyttäneet odotuksia. Tämä pettymys motivoitunut uudelleenjärjestelyyn tutkimuksen tekoälyyn kohti neuroverkot (vaikka nämä verkostot huolta keinotekoinen käsitys yli keinotekoinen älykkyys varsinaisesti). Tutkimus käynnistettiin uudelleen ja teollisuus sai jälleen jonkin verran hermosolujen kiinnostusta (erityisesti sovellusten, kuten risteilyohjusten ohjauksen, suhteen ). Vuonna 1984 (?) Gradienttipropagointijärjestelmä oli alan eniten keskusteltu aihe.

Keinotekoisten hermoverkkojen alalla tapahtuu sitten vallankumous: uusi hermoverkkojen sukupolvi, joka pystyy käsittelemään menestyksekkäästi epälineaarisia ilmiöitä: monikerroksisella perceptronilla ei ole Marvin Minskyn esiin tuomia vikoja . Paul Werbosin ensimmäistä kertaa ehdottama monikerroksinen perceptron ilmestyi vuonna 1986, jonka esitteli David Rumelhart , ja samanaikaisesti samanlaisella nimellä Yann Le Cun . Nämä järjestelmät perustuvat virheen gradientin taantumiseen järjestelmissä, joissa on useita kerroksia, kukin Bernard Widrow Adaline -tyyppinen, lähellä Rumelhartin perceptronia.

Neuroverkot sittemmin kokenut huomattavan puomi, ja olivat ensimmäisiä järjestelmiä hyötyä käsityksen teorian "tilastollisen regularization" käyttöön Vladimir Vapnik että Neuvostoliitossa ja popularisoi West kaatumisen jälkeen Yhdysvalloissa. Seinään . Tämä teoria, joka on yksi tärkeimmistä tilastoalalla , antaa mahdollisuuden ennakoida, tutkia ja säätää liikaa sopimiseen liittyviä ilmiöitä . Voimme siten säännellä oppimisjärjestelmää siten, että se sovittaa parhaimmillaan huonon mallinnuksen (esimerkki: keskiarvo ) ja liian rikkaan mallinnuksen, joka olisi harhautettu illusorisesti liian pieneen määrään esimerkkejä ja joka olisi toimimaton esimerkissä, jota ei vielä ole opittu, edes lähellä opittuja esimerkkejä. Yliasennus on vaikeus, jota kaikki esimerkkijärjestelmät kohtaavat, käyttävätkö ne suoria optimointimenetelmiä (esim. Lineaarinen regressio ), iteratiivisia (esim. Gradienttialgoritmit ) vai puolisuoria iteratiivisia ( konjugaattigradientti , odotusten maksimointi ...) ja näitä sovelletaan klassisiin tilastomalleihin, piilotettuihin Markov-malleihin tai virallisiin hermoverkoihin.

Konvoluutioinen hermoverkko

Neuraaliverkot kehittyvät uudentyyppisen verkon kanssa, jota ei ole täysin kytketty, mallien keventämiseksi parametrien lukumäärän suhteen ja suorituskyvyn parantamiseksi ja niiden yleistämiskyvyn parantamiseksi. Yksi ensimmäisistä sovelluksista oli Yhdysvaltojen postinumeroiden automaattinen tunnistus LeNet-5-verkon kanssa. Koneoppimisessa konvoluutio- tai konvoluutio-hermoverkko (CNN tai ConvNet for Convolutional Neural Networks) on eräänlainen asyklinen (eteenpäin suuntautuva) keinotekoinen hermoverkko, jossa hermosolujen välinen yhteysmalli on inspiroitunut eläinten visuaalisesta aivokuoresta. . Tämän aivojen alueen neuronit on järjestetty siten, että ne vastaavat päällekkäisiä alueita visiokenttää laatoitettaessa. Niiden toiminta perustuu biologisiin prosesseihin, ne koostuvat monikerroksisesta perceptronipinosta, jonka tarkoituksena on esikäsitellä pieniä määriä tietoa. Konvoluutio-hermoverkoilla on laaja sovellus kuvien ja videoiden tunnistamiseen, suositusjärjestelmiin ja luonnollisen kielen käsittelyyn.

Apuohjelma

Neuroverkot ovat oppimiskykyisiä järjestelmiä, jotka toteuttavat induktioperiaatteen eli oppimisen kokemuksella. Tiettyihin tilanteisiin verrattuna he päättelevät integroidun päätöksentekojärjestelmän, jonka yleinen luonne riippuu havaittujen oppimistapausten määrästä ja niiden monimutkaisuudesta suhteessa ratkaistavan ongelman monimutkaisuuteen. Sitä vastoin symboliset järjestelmät, jotka pystyvät oppimaan, jos ne toteuttavat myös induktiota, tekevät sen algoritmisen logiikan perusteella tekemällä deduktiivisten sääntöjen joukosta monimutkaisemman ( esimerkiksi Prolog ).

Neuraaliverkkoja käytetään tyypillisesti tilastollisissa ongelmissa luokittelun ja yleistämisen ansiosta, kuten automaattinen postinumeron luokittelu tai osakehankintaa koskevan päätöksen tekeminen hinnanmuutosten perusteella. Toinen esimerkki on, että pankki voi luoda tietojoukon asiakkaista, jotka ovat ottaneet lainaa, jotka koostuvat: heidän tuloistaan, iästä, huollettavien lasten lukumäärästä ja siitä, ovatko he hyviä asiakkaita. Jos tämä tietojoukko on riittävän suuri, sitä voidaan käyttää hermoverkon harjoittamiseen. Sitten pankki pystyy esittämään potentiaalisen uuden asiakkaan ominaispiirteet, ja verkko reagoi siitä, onko hän hyvä asiakas vai ei, yleistämällä tiedossa olevat tapaukset.

Jos hermoverkko toimii todellisilla numeroilla, vastaus heijastaa varmuuden todennäköisyyttä. Esimerkiksi: 1 tarkoittaa "varma, että hänestä tulee hyvä asiakas", -1 arvosta "varma, että hänestä tulee huono asiakas", 0 arvosta "ei ideaa", 0,9 arvosta "melkein varma, että hänestä tulee hyvä asiakas".

Neuroverkko ei aina tarjoa sääntöä, jota ihminen voi käyttää. Verkko pysyy usein mustana laatikkona, joka antaa vastauksen, kun se esitetään tietopalan kanssa, mutta verkko ei tarjoa helposti tulkittavia perusteluja.

Neuroverkkoja käytetään tosiasiallisesti, esimerkiksi:

eläinlajien luokittelemiseksi lajeittain, joille on annettu DNA-analyysi.
kuvion tunnistaminen ; esimerkiksi optisen merkintunnistuksen (OCR) ja erityisesti pankkien tarkastettavien tarkastusten määrän varmistamiseksi, La Poste lajittelee postin postinumeron mukaan jne. ; tai jopa autonomisten mobiilirobottien automatisoituun liikkumiseen.
tuntemattoman toiminnon likiarvo.
nopeutetun mallinnus toiminnolle, joka on tunnettu, mutta erittäin monimutkainen laskea tarkasti; esimerkiksi tietyt invertiotoiminnot, joita käytetään satelliittien lähettämien kaukokartoitussignaalien dekoodaamiseen ja niiden muuttamiseen merenpinnan dataksi.
arviot osakemarkkinoista:
- yrityksen arvon oppiminen käytettävissä olevien indeksien mukaan: voitot, pitkä ja lyhytaikainen velka, liikevaihto, tilauskanta, tekniset tiedot taloudellisesta tilanteesta. Tämän tyyppinen sovellus ei yleensä aiheuta ongelmaa
- yrittää ennustaa osakemarkkinoiden hintojen jaksottaisuutta. Tämän tyyppinen ennuste on kiistanalainen kahdesta syystä, joista yksi on, että ei ole ilmeistä, että osakkeen hinta on luonteeltaan melko vakuuttavasti jaksollinen (markkinat todella odottavat nousua, kuten ennakoitavat laskut, mikä pätee kaikkiin mahdollisiin vaihteluihin). ajanjakso vaikeuttaa luotettavuuden syntymistä) ja toinen, että yrityksen ennakoitavissa oleva tulevaisuus määrää vähintään yhtä voimakkaasti osakkeen hinnan, jos se ei ole, on enemmän kuin hänen menneisyytensä voi tehdä; Pan Amin, Manufrancen tai IBM: n tapaukset antavat meille varmuuden siitä.
mallintamisen oppiminen ja opetustekniikoiden parantaminen.
meteorologiassa ilmasto-olosuhteiden luokitteluun ja tilastolliseen sääennusteeseen.
hydraulisten rakenteiden auskultoinnissa siirtymäilmiöiden, kohoamisen ja vuotojen fyysiseen ymmärtämiseen.

Rajat

Keinotekoiset hermoverkot tarvitsevat todellisia tapauksia, jotka ovat esimerkkejä heidän oppimisestaan (tätä kutsutaan oppimisperustaksi ). Näiden tapausten on oltava sitäkin lukuisampia, koska ongelma on monimutkainen ja sen topologia ei ole kovin jäsennelty. Täten hermomerkkien lukujärjestelmä voidaan optimoida jakamalla manuaalisesti suuri määrä sanoja, jotka monet ihmiset ovat kirjoittaneet käsin. Jokainen merkki voidaan sitten esittää raakakuvana, jolla on kaksiulotteinen paikkatopologia tai sarja lähes kaikkia linkitettyjä segmenttejä. Säilytetyn topologian, mallinnetun ilmiön monimutkaisuuden ja esimerkkien määrän on oltava yhteydessä toisiinsa. Käytännössä tämä ei ole aina helppoa, koska esimerkkejä voi olla joko rajoitetusti tai liian kalliita kerätä riittävästi.

On olemassa ongelmia, jotka toimivat hyvin neuroverkoilla, erityisesti luokittelun huomioon kupera domeenit (toisin sanoen siten, että, jos pisteiden A ja B ovat osa domeenin, niin koko segmentti AB on myös osa). Ongelmia, kuten " Onko merkintöjen lukumäärä 1 (tai nolla) pariton vai parillinen?" »On ratkaistu erittäin huonosti: sellaisten asioiden väittämiseksi kahdella N-tehopisteellä, jos olemme tyytyväisiä naiiviseen, mutta homogeeniseen lähestymistapaan, tarvitsemme tarkalleen N-1-kerroksia välihermoja, mikä on haitallista prosessin yleisyydelle.

Karikatyyri, mutta merkittävä esimerkki on seuraava: Verkon on määritettävä, onko tämä nainen nainen vai mies, koska syötteenä on vain henkilön paino. Koska naiset ovat tilastollisesti hiukan kevyempiä kuin miehet, verkosto toimii aina hieman paremmin kuin yksinkertainen satunnainen piirtäminen: tämä irrotettu esimerkki osoittaa näiden mallien yksinkertaisuuden ja rajoitukset, mutta se osoittaa myös, kuinka sitä voidaan jatkaa: hame "-informaatiolla olisi selvästi suurempi synaptinen kerroin kuin yksinkertaisella painotiedolla, jos siihen lisätään.

Opasiteetti

Monimutkaiset keinotekoiset hermoverkot eivät yleensä voi selittää tapaa "ajatella" yksin. Tulokseen johtavat laskelmat eivät näy hermoverkon luoneet ohjelmoijat. ”Tekoäly neurotiede” oli siis luotu tutkimaan mustan laatikon muodostaman neuroverkot, tiede, joka voisi lisätä luottamusta tuottamat tulokset näitä verkkoja tai keinotekoinen älykkyyden, jotka käyttävät niitä.

Malli

Verkon rakenne

Neuroverkko koostuu yleensä peräkkäisistä kerroksista, joista kukin ottaa tulonsa edellisen lähdöistä. Kunkin kerroksen (i) koostuu N i neuronien, kun niiden tulot: n N i-1 neuronien edellisen kerroksen. Jokaisella synapsiin liittyy synaptinen paino, joten N i-1 kerrotaan tällä painolla ja lisätään sitten tason i neuroneilla, mikä vastaa tulovektorin kertomista muunnosmatriisilla. Neuraaliverkon eri kerrosten asettaminen toistensa yli merkitsisi useiden muunnosmatriisien kaskadia ja se voidaan vähentää yhdeksi matriisiksi, muiden tuotteiden tuloksi, ellei niitä olisi jokaisessa kerroksessa, tulosfunktio, joka tuo epälineaarisuuden jokaisessa vaiheessa. Tämä osoittaa hyvän lähtötoiminnon järkevän valinnan tärkeyden: hermoverkolla, jonka lähdöt olisivat lineaarisia, ei olisi kiinnostusta.

Tämän yksinkertaisen rakenteen lisäksi hermoverkko voi sisältää myös silmukoita, jotka muuttavat radikaalisti sen mahdollisuuksia mutta myös monimutkaisuutta. Aivan kuten silmukoita voi muuttaa kombinaatiologiikan tulee juokseva logiikka , silmukoita neuroverkko muuntaa yksinkertainen tulo tunnistettaisiin laite on monimutkainen kone, joka kykenee kaikenlaisia käyttäytymisen.

Yhdistelmätoiminto

Harkitse mitä tahansa neuronia.

Se vastaanottaa useita arvoja ylävirran hermosoluista synaptisten yhteyksiensä kautta, ja se tuottaa tietyn arvon yhdistelmätoiminnon avulla . Tämä toiminto voidaan näin ollen virallisesti olevan -to- skalaari vektoriin toiminto , erityisesti:

MLP ( monikerroksinen perceptron ) -tyyppiset verkot laskevat lineaarisen tuloyhdistelmän, ts. Yhdistelmäfunktio palauttaa pistetulon tulovektorin ja synaptisten painojen vektorin välillä.
RBF ( radiaalipohjatoiminto ) -tyyppiset verkot laskevat tulojen välisen etäisyyden, ts. Yhdistelmäfunktio palauttaa vektorin euklidisen normin, joka johtuu tulovektorien välisestä vektorierosta.

Aktivointitoiminto

Aktivaatiofunktio (tai kynnystettäessä toiminto , tai jopa siirtofunktio ) käytetään käyttöön epälineaarisuus osaksi toimintaa neuroni.

Kynnystoiminnoilla on yleensä kolme väliä:

kynnyksen alapuolella neuroni on passiivinen (usein tässä tapauksessa sen tuotos on 0 tai -1);
kynnyksen ympärillä siirtymävaihe;
kynnyksen yläpuolella neuroni on aktiivinen (usein tässä tapauksessa sen tuotos on 1).

Tyypillisiä esimerkkejä aktivointitoiminnoista ovat:

Sigmoid toiminto .
Hyperbolinen tangentti funktio .
Toiminta Heaviside .

Bayesin logiikka, jonka Cox-Jaynesin lause muodostaa oppimiskysymykset, sisältää myös S-funktion, joka tulee esiin toistuvasti: $ev (p) = 10 \ loki \ vasen ({\ frac {p} {1-p}} \ oikea)$

Tietojen levittäminen

Kun tämä laskenta on suoritettu, hermosolu levittää uuden sisäisen tilansa aksonilleen. Yksinkertaisessa mallissa hermofunktio on yksinkertaisesti kynnysfunktio: se on yhtä kuin 1, jos painotettu summa ylittää tietyn kynnyksen; 0 muuten. Rikkaammassa mallissa neuroni toimii reaalilukujen kanssa (usein välillä [0,1] tai [-1,1]). Sanomme, että hermoverkko siirtyy tilasta toiseen, kun kaikki sen neuronit laskevat sisäisen tilansa uudelleen rinnakkain tulojensa mukaan.

Oppiminen

Teoreettinen perusta

Vaikka käsitystä oppimisesta tunnetaan jo Sumerin jälkeen , sitä ei voida mallintaa deduktiivisen logiikan puitteissa : tämä tosiasiallisesti perustuu jo vakiintuneeseen tietoon, josta johdettu tieto perustuu. Tämä on kuitenkin päinvastainen prosessi: rajoitetuilla havainnoilla, tekemällä uskottavia yleistyksiä: se on induktio .

Oppimisen käsite kattaa kaksi tosiasiaa, joita hoidetaan usein peräkkäin:

muistaminen: se tosiasia, että assimiloituu tiheässä muodossa, mahdollisesti lukuisia esimerkkejä,
yleistys: tosiasia, että opittujen esimerkkien ansiosta pystymme käsittelemään erillisiä esimerkkejä, joita ei ole vielä kohdattu, mutta jotka ovat samanlaisia.

Tilastollisten oppimisjärjestelmien tapauksessa, joita käytetään klassisten tilastomallien, hermoverkkojen ja markovilaisten automaattien optimointiin, kaiken huomion kohteena on yleistys.

Tätä yleistämisen käsitettä käsitellään enemmän tai vähemmän täydellisesti useilla teoreettisilla lähestymistavoilla.

Vladimir Vapnikin esittämä tilastollisen laillistamisen teoria käsittelee yleistämistä globaalilla ja yleisellä tavalla . Tämä alun perin Neuvostoliitossa kehitetty teoria on levinnyt lännessä Berliinin muurin kaatumisen jälkeen. Tilastollisen laillistamisen teoria on levinnyt hyvin laajasti hermoverkkoja tutkivien kesken iteratiivisten oppimismenettelyjen, kuten monikerroksisten perceptronien optimointiin käytettävien gradienttien laskujen, seurauksena jäljelle jäävän oppimisen ja yleistysvirhekäyrien yleisen muodon vuoksi . Nämä yleiset muodot vastaavat tilastollisen laillistamisen teorian tarjoamia muotoja; tämä johtuu siitä, että gradientin laskeutumisen avulla suoritettavat oppimismenetelmät tutkivat asteittain mahdollisten synaptisten painojen tilaa; sitten löydämme ongelman oppimiskyvyn asteittaisesta kasvusta , joka on peruskäsite tilastollisen laillistamisen teorian ytimessä.
Yleistäminen on myös pitkään opetetun Bayesin johtopäätöksen ydin . Cox-Jaynes teoreema tarjoaa näin tärkeän perustan aikuiskoulutukseen, opettamalla meille, että jokin opetusmenetelmä on joko isomorfinen todennäköisyyksien varustettu Bayes suhteessa, tai epäjohdonmukainen . Tämä on erittäin vahva tulos, ja siksi Bayesin menetelmiä käytetään laajasti kentällä.

Liukeneva ongelmaluokka

Verkon rakenteesta riippuen erityyppisiä toimintoja voidaan lähestyä hermoverkkojen ansiosta:

Perceptronin edustamat toiminnot

Perceptron (yhden yksikön verkko) voi edustaa seuraavia Boolen funktioita: ja, tai, nand, eikä mutta ei xor. Koska mikä tahansa Boolen-funktio on edustettavissa näiden toimintojen avulla, perceptron-verkko pystyy edustamaan kaikkia Boolen-toimintoja. Toimintojen nand ja niiden ei sanota olevan universaaleja: Yhdistämällä yhden näistä toiminnoista voimme edustaa kaikkia muita.

Asyklisten monikerroksisten hermoverkkojen edustamat toiminnot

Boolen toiminnot: kaikki loogiset toiminnot voidaan edustaa kaksikerroksisella verkolla. Pahimmassa tapauksessa piilokerroksen neuronien määrä kasvaa eksponentiaalisesti tulojen määrän kanssa.
Jatkuvat toiminnot: kaikki rajatut jatkuvat toiminnot ovat mielivaltaisen tarkasti edustettavissa kaksikerroksisessa verkossa (Cybenko, 1989). Tämä lause koskee verkkoa, jonka neuronit käyttävät sigmoidia piilotetussa kerroksessa ja lineaariset neuronit (ilman kynnystä) ulostulokerroksessa. Piilotetun kerroksen neuronien määrä riippuu likimääräisestä toiminnosta.
Mielivaltaiset toiminnot: mitä tahansa toimintoa voidaan lähentää mielivaltaisella tarkkuudella kolmikerroksisen verkon ansiosta ( Cybenkon lause , 1988).

Algoritmi

Suurimmalla osalla hermoverkkoja on "koulutus" -algoritmi, joka koostuu synaptisten painojen muokkaamisesta verkon syötteessä esitetyn tietojoukon mukaan. Tämän koulutuksen tavoitteena on antaa hermoverkon "oppia" esimerkeistä. Jos harjoittelu suoritetaan oikein, verkko pystyy tarjoamaan lähtövastauksia hyvin lähellä harjoitustietojoukon alkuperäisiä arvoja. Mutta hermoverkkojen koko asia on niiden kyvyssä yleistää testijoukosta. Siksi on mahdollista käyttää hermoverkkoa muistin tuottamiseen; tätä kutsutaan hermosolujen muistiksi .

Oppimisen topologinen näkymä vastaa hyperpinnan määrittämistä missä on reaalilukujoukko ja verkon syötteiden lukumäärä. $\ mathbb {R} ^ {n}$ $\ mathbb {R}$ $ei$

Oppiminen

Valvottu tai valvomaton tila

Oppimisen sanotaan olevan valvottu, kun verkko pakotetaan lähentymään kohti tarkkaa lopputilaa, samalla kun sille esitetään malli.

Päinvastoin, valvomattoman oppimisen aikana verkko jätetään vapaaksi lähentymään mihin tahansa lopputilaan, kun sille esitetään malli.

Yliasennus

Usein tapahtuu, että oppimispohjan esimerkit sisältävät likimääräisiä tai meluisia arvoja. Jos pakotamme verkon reagoimaan melkein täydellisesti näihin esimerkkeihin, voimme saada verkon, joka on puolueellinen virheellisistä arvoista.

Kuvittele esimerkiksi, että esittelemme verkolle parit, jotka sijaitsevat yhtälöviivalla , mutta meluisat niin, että pisteet eivät ole aivan viivalla. Jos oppiminen on hyvää, verkko reagoi kaikkiin esitettyihin arvoihin . Jos on ylivarustusta , verkko reagoi hieman enemmän tai vähän vähemmän, koska kukin oikeanpuoleinen sijoittunut pari vaikuttaa päätökseen: se on oppinut melun lisäksi, mikä ei ole toivottavaa. ${\ displaystyle (x_ {i}, f (x_ {i}))}}$ $y = kirves + b$ ${\ displaystyle ax + b}$ $x$ ${\ displaystyle ax + b}$ ${\ displaystyle (x_ {i}, f (x_ {i}))}}$

Yliasennuksen välttämiseksi on olemassa yksinkertainen menetelmä: riittää, että esimerkkien pohja jaetaan kahteen osajoukkoon. Ensimmäinen on oppimista ja toinen oppimisen arviointia varten. Niin kauan kuin toisesta joukosta saatu virhe pienenee, voimme jatkaa oppimista, muuten lopetamme.

Takaisinlevitys

Takaisin eteneminen on rétropropager virhe on neuronin synapsien ja neuronien kytketty siihen. Neuroverkoissa käytämme yleensä virheen gradientin taaksepäin kasvua , joka koostuu virheiden korjaamisesta niiden virheiden toteutukseen tarkasti osallistuneiden elementtien tärkeyden mukaan: synaptiset painot, jotka vaikuttavat virheen syntymiseen. modifioitu merkittävämmällä tavalla kuin marginaalin virheen tuottaneet painot.

Leikkaaminen

Karsiminen ( karsiminen , englanti) on menetelmä, joka välttää ylikuormitusta ja rajoittaa samalla mallin monimutkaisuutta. Se koostuu yhteyksien (tai synapsien), tulojen tai hermosolujen poistamisesta verkosta oppimisen jälkeen. Käytännössä elementit, joilla on pienin vaikutus verkon lähtövirheeseen, estetään. Kaksi esimerkkiä karsimisalgoritmeista ovat:

Optimaalinen aivovaurio (OBD), kirjoittanut Yann LeCun et ai.
Optimaalinen aivokirurgi (OBS), kirjoittanut B. Hassibi ja DG Stork

Erilaiset hermoverkot

Synaptisten linkkien painojen joukko määrittää hermoverkon toiminnan. Kuviot esitetään hermoverkon osajoukolle: tulokerrokselle. Kun mallia käytetään verkkoon, se pyrkii saavuttamaan vakaan tilan. Kun se saavutetaan, tulos ovat hermosolujen aktivaatioarvot. Neuroneja, jotka eivät ole osa sisääntulokerrosta tai ulostulokerrosta, kutsutaan piilotetuiksi neuroneiksi .

Neuroverkkotyypit eroavat useista parametreista:

topologia välisten yhteyksien neuronien;
käytetty aggregaatiofunktio (painotettu summa, pseudo-euklidinen etäisyys jne.);
kynnystysfunktiopiirin käyttää ( sigmoidisen , vaihe, lineaarinen funktio, Gaussin funktio , jne.);
oppiminen algoritmi ( gradientti backpropagation , Cascade korrelaatio);
muut parametrit, spesifiset tietyntyyppisille hermoverkoille, kuten hermoverkkojen rentoutumismenetelmä (esimerkiksi Hopfield-verkot), jotka eivät ole yksinkertaisia etenemisiä (esimerkiksi monikerroksinen perceptroni).

Näiden hermoverkkojen koulutuksen yhteydessä toteutetaan todennäköisesti monia muita parametreja, esimerkiksi:

paino rappeutuminen menetelmä , jolloin on mahdollista välttää sivuvaikutuksia ja neutraloimiseksi overfitting.

Ohjatut oppimisverkot

Ilman lisäystä Perceptron ADALINE (adaptiivinen lineaarinen neuroni)

ADALINE- verkko on lähellä perceptron- mallia , vain sen aktivointitoiminto on erilainen, koska se käyttää lineaarista toimintoa. Syötössä vastaanotettujen häiriöiden vähentämiseksi ADALINE-verkot käyttävät pienimmän neliösumman menetelmää .

Verkko ymmärtää syötettyjen arvojen painotetun summan ja lisää niihin ennalta määritetyn kynnysarvon. Lineaarista siirtofunktiota käytetään sitten neuronin aktivointiin. Oppimisen aikana eri merkintöjen synaptisia kertoimia muutetaan Widrow-Hoffin (in) lain mukaan . Näitä verkkoja käytetään usein signaalinkäsittelyssä, erityisesti kohinan vähentämiseksi.

Cauchy-kone

Cauchy-kone on keinotekoinen hermoverkko, joka on melko samanlainen Boltzmann-koneen toiminnassa . Käytetyt todennäköisyyksien lait eivät kuitenkaan ole samat.

Ei yksityiskohtainen

Adaptiivinen heuristinen kriitikko (AHC)
Aikaviive-hermoverkko (TDNN)
Assosiatiivinen palkkiosakko (ARP)
Avalanche-sovitettu suodatin (AMF)
Taustakuva (Perc)
Taidekartta
Mukautuva logiikkaverkko (ALN)
Kaskadikorrelaatio (CasCor)
Laajennettu Kalman-suodatin (EKF)
Oppimisen vektorikvantisointi (LVQ)
Todennäköinen hermoverkko (PNN)
Yleinen regressiohermoverkko (GRNN)

Laajennuksella

Konvoluutiohermoverkko (CNN)

Monikerroksinen Perceptron Ei yksityiskohtainen

Brain-State-in-a-Box (BSB)
Sumea kognitiivinen kartta (FCM)
Keskimääräinen kentän hehkutus (MFT)
Toistuva kaskadikorrelaatio (RCC)
Selkälevitys ajan myötä (BPTT)
Reaaliaikainen toistuva oppiminen (RTRL)
Toistuva jatkettu Kalman-suodatin (EKF)

Valvomaton oppimisverkosto

Laajennuksella

Ei yksityiskohtainen

Lisäaine Grossberg (AG)
Shunting Grossberg (SG)
Binaarinen adaptiivisen resonanssin teoria (ART1)
Analoginen adaptiivisen resonanssin teoria (ART2, ART2a)
Diskreetti Hopfield (DH)
Jatkuva Hopfield (CH)
Fraktaali kaaos
Diskreetti kaksisuuntainen assosiatiivinen muisti (BAM)
Ajallinen assosiatiivinen muisti (TAM)
Adaptiivinen kaksisuuntainen assosiatiivinen muisti (ABAM)
Kilpailukykyinen oppiminen

Tämäntyyppisessä valvomattomassa oppimisessa neuronit kilpailevat aktiivisuudesta. Ne ovat binäärilähtöjä ja sanomme niiden olevan aktiivisia, kun niiden lähtö on 1. Vaikka muissa säännöissä useat hermolähdöt voivat olla aktiivisia samanaikaisesti, kilpailevan oppimisen tapauksessa vain yksi hermosolu on aktiivinen kerrallaan. Jokainen ulostulohermo on erikoistunut "havaitsemaan" sarjan samanlaisia muotoja ja siitä tulee sitten ominaisuusdetektori. Tulotoiminto on tässä tapauksessa, jossa , ja ovat vastaavasti kynnys, synaptisia vahvuuksia ja tulot vektoreita. Voittava hermosolu on se, jolle h on suurin, joten jos kynnysarvot ovat identtiset, se, jonka painot ovat lähinnä tuloja. Neuroni, jolla on enimmäisteho, on voittaja ja sen ulostulo asetetaan arvoon 1, kun häviäjien lähtöarvo on 0. Hermosolu oppii siirtämällä painonsa niiden tulojen arvoihin, jotka aktivoivat sen kasvattaakseen mahdollisuudet voittaa. Jos neuroni ei reagoi syötteeseen, painon säätöä ei tapahdu. Jos neuroni voittaa, osa kaikkien tulojen painoista jakautuu uudelleen aktiivisten tulojen painoihin. Säännön soveltaminen antaa seuraavat tulokset (Grossberg): ${\ displaystyle h = \ operaattorin nimi {b-dist} (W, X)}$ $b$ $W$ $X$

${\ displaystyle Dw_ {ij} = lr (x_ {j} -w_ {ij})}$ jos neuroni i voittaa,
${\ displaystyle Dw_ {ij} = 0}$ jos hermosolu häviää.

Tämä sääntö tuo synaptisen painovektorin lähemmäksi tulomuotoa . $w _ {{ij}}$ $x_ {j}$

Esimerkki: tarkastellaan kahden tason pilviä, jotka haluamme erottaa kahteen luokkaan. ja ovat kaksi tuloa, ja ne ovat hermosolujen 1 painot, joita voidaan pitää pisteen "hermosolu 1 painon" koordinaateina ja ovat hermosolun 2 painot. Jos kynnysarvot ovat nollia, hi on etäisyys luokiteltavat pisteet ja painopisteet. Edellisellä säännöllä on taipumus pienentää tätä etäisyyttä näytepisteestä, kun neuroni voittaa. Sen on siis annettava jokaisen painopisteen sijoittua pilven keskelle. Jos asetamme painot satunnaisesti satunnaisesti, voi olla, että toinen hermosoluista on lähellä kahta pilviä ja toinen kaukana niin, että se ei koskaan voita. Sen painot eivät koskaan voi kehittyä, kun taas toisen neuronin painot sijoittavat sen kahden pilven keskelle. Näiden kuolleiksi luokiteltavien hermosolujen ongelma voidaan ratkaista pelaamalla kynnyksillä. Tosiaankin riittää nostamaan näiden hermosolujen kynnystä, jotta he alkavat voittaa. $x_ {1}$ $x_ {2}$ ${\ displaystyle w_ {11}}$ ${\ displaystyle w_ {12}}$ ${\ displaystyle w_ {21}}$ ${\ displaystyle w_ {22}}$

Sovellukset: Tämän tyyppistä verkkoa ja vastaavaa oppimismenetelmää voidaan käyttää data-analyysissä tiettyjen tietojen yhtäläisyyksien korostamiseksi.

Yksityiskohdat

Mallina hermoverkkoja käytetään yleensä ohjelmistosimulaation yhteydessä. IMSL: llä ja Matlabilla on siis neuroverkoille omistettuja kirjastoja. Yksinkertaisemmista malleista, kuten ZISC- sirusta, on kuitenkin olemassa muutama laitteistototeutus .

Katso myös

Viitteet

(en) Warren Sturgis McCulloch ja Walter Pitts. Looginen laskelma hermostuneessa toiminnassa immanenteista ideoista. Bulletin of Mathematical Biophysics , 5: 115-133, 1943.
( fr ) Frank Rosenblatt . Perceptron: todennäköisyysmalli tietojen tallentamiseen ja organisointiin aivoissa. Psychological Review , 65: 386-408, 1958.
( fr ) John Joseph Hopfield . Neuroverkot ja fyysiset järjestelmät, joilla on syntymässä kollektiivisia laskennallisia kykyjä . Kansallisen tiedeakatemian julkaisut , 79: 2554-2555, 1982.
Yann LeCun . Asymmetrisen kynnysverkon oppimismenettely. COGNITIVA 85 , Pariisi, 4-7. kesäkuuta 1985.
(en) DE Rumelhart ja JL Mc Clelland. Rinnakkainen hajautettu käsittely: etsintä kognition mikrorakenteessa. MIT Press , Cambridge, 1986.
(en) JA Anderson ja E. Rosenfeld. Neurolaskennan tutkimuksen perusteet. MIT Press , Cambridge, 1988.
(fr) Tom M.Mitchell, koneoppiminen ,1997[ yksityiskohdat painoksista ]
Wulfram Gerstner, " Keinotekoinen hermoverkko - Johdatus koneoppimiseen " , osoitteessa moodlearchive.epfl.ch ,2006(käytetty 6. heinäkuuta 2016 ) .

Huomautuksia ja viitteitä

” keinotekoinen hermoverkko ” , Le Grand Dictionnaire terminologique , Office québécois de la langue française (käytetty 28. tammikuuta 2020 ) .
[PDF] Ranskan kielen rikastustoimikunta , "Vocabulaire de l'Intelligence Artifique (luettelo hyväksytyistä termeistä, ilmaisuista ja määritelmistä)", Journal officiel de la République française n o 0285 du9. joulukuuta 2018[ lue verkossa ] .
( Gerstner 2004 , s. 3)
Nämä paradigmat vastaavat erityyppistä hermoverkko-oppimista, mukaan lukien valvottu tai valvomaton ja vahvistava oppiminen.
École normale supérieure , " TULEVAISUUDEN TULEVAISUUDET (Yann LeCun - Jean Ponce - Alexandre Cadain) " ,19. lokakuuta 2016(katsottu 4. elokuuta 2017 )
Lettvin, JY, Maturana, HR, McCulloch, WS, & Pitts, WH; Mitä sammakon silmä kertoo sammakon aivoille (PDF, 14 sivua) ( 1959 ); Proceedings of the IRE, voi. 47, nro 11, s. 1940-51.
(in) Donald O. Hebb, Järjestäminen Behavior A Neuropsychological Theory , Wiley , ai. "Wiley-kirja kliinisessä psykologiassa",1966
Marvin Lee Minsky ja Seymour Papert, Perceptrons: An Introduction to Computational Geometry , Cambridge,1988, 292 Sivumäärä ( ISBN 978-0-262-63111-2 )
Piispa (2006) , s. 193
Hopfield, JJ Proc. natn. Acad. Sci. USA 79 , 2554–2558 (1982).
Yassine Mahdi ja Kamel Daoud , " Mikropisaran koon ennustus mikroputkijärjestelmissä keinotekoisen hermoverkon mallinnuksen avulla vesi-öljyssä -emulsion formulointiin ", Journal of Dispersion Science and Technology , voi. 0, n o ja,11. marraskuuta 2016, null ( ISSN 0193-2691 , DOI 10.1080 / 01932691.2016.1257391 , luettu verkossa , käytetty 7. joulukuuta 2016 )
(fi-FI) “ LeNet-5 - klassinen CNN-arkkitehtuuri ” , engMRK ,30. syyskuuta 2018(katsottu 5. joulukuuta 2020 )
Appenzeller Tim (2017), Tekoälyn vallankumous , Science Niews, 7. heinäkuuta
Mohan Mokhtari, Michel Marie ' MATLAB 5: n ja SIMULINK 2: n sovellukset: prosessinohjaus, sumea logiikka, hermoverkot, signaalinkäsittely , Springer-Verlag, Pariisi, 1998 ( ISBN 978-2-287-59651-3 )
https://bib.irb.hr/datoteka/244548.Paper_830.pdf
Teuvo Kohonen, Sisältökelpoiset muistot , Springer-Verlag, 1987, ( ISBN 978-0-387-17625-3 ) , 388 sivua
Pribramin, Karl (1991). Aivot ja havainnot: holonomia ja rakenne figuraalisessa prosessoinnissa . Hillsdale, NJ: Lawrence Erlbaum Associates. ( ISBN 978-0-89859-995-4 ) . lainaus "fraktaalikaaoksen" hermoverkosta
D.Levine et ai., Värähtelyt hermojärjestelmissä, julkaisija Lawrence Erlbaum Associates, 1999, 456 sivua ( ISBN 978-0-8058-2066-9 )

Bibliografia

François ja Michel Blayo Verleysen, keinotekoinen neuroverkot , PUF , Que Sais-I No. 3042 , 1. krs ed., 1996
Léon Personnaz ja Isabelle Rivals, Muodolliset hermoverkot mallinnusta, ohjausta ja luokittelua varten , CNRS Éditions, 2003.
Richard P. Lippman, "Johdatus tietokoneverkkoon hermoverkoilla", IEEE ASSP Magazine ,Huhtikuu 1987, s. 4-22
Neuroverkot: biologiset tietokoneet tai elektroniset aivot - Les conversations de Lyon - ( École normale supérieure de Lyonin johdolla ), Springer-Verlag, 1990
Jean-Paul Haton , Connectionist-mallit tekoälylle , 1989.
Gérard Dreyfus , Jean-Marc Martinez, Manuel Samuelides, Mirta Gordon, Fouad Badran ja Sylvie Thiria, Tilastollinen oppiminen: hermoverkot, topologiset kartat, tukivektorikoneet , Eyrolles, 2008
Eric Davalo, Patrick Naïm, Neuroverkot, Eyrolles, 1990
Simon Haykin, Neural Networks: A Comprehensive Foundation , 2 e painos, Prentice Hall, 1998.
Christopher M.Bishop, Neural Networks for Pattern Recognition , Oxford University Press, 1995
(en) Christopher M.Bishop, kuvion tunnistaminen ja koneoppiminen , Springer,2006( ISBN 0-387-31073-8 ) [ yksityiskohdat painoksista ]
(en) Richard O. Duda, Peter E. Hart, David G. Stork, Pattern Classification , Wiley-Interscience,2001( ISBN 0-471-05669-3 ) [ yksityiskohdat painoksista ]
Krose Ben ja Patrick van der Smagt, Johdatus Neural Networks , 8 th painos, 1996
Claude Touzet, Neuraaliverkot: Johdanto- konnexionismi , EC2,1992, 160 Sivumäärä, PDF-tiedosto
Marc Parizeau, Neuraaliverkot (monikerroksinen perceptron ja sen virheensiirtoalgoritmi) , Université Laval, Laval, 2004, 272 Sivumäärä
Fabien Tschirhart (ohjaaja Alain Lioret), Muodolliseen hermoverkkoon sovelletut keinotekoiset älykkyydet ja pelit , ESGI (multimedian ja digitaalisen animaation tutkimustyö), Pariisi, 2009, 121 Sivumäärä [ online-kuvaus (sivu tarkasteltu 8. marraskuuta 2010)]