Q-oppiminen

Vuonna tekoälyä , tarkemmin sanoen koneoppimisen , Q-oppiminen on vahvistusoppiminen tekniikkaa . Tämä tekniikka ei vaadi alustavaa ympäristömallia . Kirjain 'Q' tarkoittaa toimintoa, joka mittaa tietyssä järjestelmän tilassa suoritetun toiminnan laatua.

Kuvaus

Tämän oppimismenetelmän avulla voit oppia käytännön, joka kertoo suoritettavan toiminnan jokaisessa järjestelmän tilassa. Se toimii oppimalla merkittävä valtion toiminta-arvo-funktio, jonka avulla voit määrittää potentiaalisen voiton, ts. Pitkän aikavälin palkkion , joka saadaan suorittamalla tietty toiminta tietyssä tilassa noudattamalla optimaalista käytäntöä. Kun agentti tietää / oppii tämän toimintatilan arvofunktion, optimaalinen käytäntö voidaan rakentaa valitsemalla maksimiarvotoiminto kullekin tilalle, ts. Valitsemalla toiminto, joka maksimoi arvon, kun agentti on tilassa . $Q$ ${\ displaystyle Q (s, a)}$ $klo$ $s$ $klo$ ${\ displaystyle Q (s, a)}$ $s$

Yksi oppimisen vahvuuksista on, että sen avulla voidaan verrata saavutettavissa olevien toimintojen todennäköisiä hyötyjä ilman alustavaa tietoa ympäristöstä. Toisin sanoen, vaikka järjestelmä on mallinnettu Markovin päätöksentekoprosessiksi (valmis), agentti oppii tuntematon ja algoritmi - oppiminen ei käytä sitä. $Q$ $Q$

Tämä palkkatason oppimisen käsite otettiin alun perin käyttöön Watkinsin opinnäytetyössä vuonna 1989. Se on muunnelma ajallisesta ero-oppimisesta. Myöhemmin osoitettiin, että - oppiminen lähentyy kohti optimaalista politiikkaa, toisin sanoen se johtaa maksimoimaan peräkkäisten vaiheiden kokonaispalkkion. $Q$

Algoritmi

Tilanne koostuu agentista, joukosta valtioita ja toimia . Suorittamalla toiminnon agentti siirtyy tilasta uuteen tilaan ja saa palkkion (se on numeerinen arvo). Agentin tavoitteena on maksimoida hänen kokonaispalkkionsa. Tämä saavutetaan oppimalla kunkin valtion optimaalinen toiminta. Kunkin valtion optimaalinen toiminta on se, jolla on suurin pitkän aikavälin palkinto. Tämä palkkio on painotettu summa jokaisen tulevan vaiheen nykyisestä tilasta tulojen matemaattisesta odotuksesta . Kunkin vaiheen paino voi olla missä nykyisen ja tulevan vaiheen välinen viive ja luku välillä 0 ja 1 (eli ) kutsutaan diskonttakertoimeksi . $S$ $AT$ $a \ sisään A$ $s$ $s '$ $r$ ${\ displaystyle \ gamma ^ {\ Delta t}}$ $\ Delta t$ $\gamma$ ${\ displaystyle 0 \ leq \ gamma \ leq 1}$

Algoritmi laskee toimintotilan arvon funktion:

{\ displaystyle Q: S \ kertaa A \ - \ matbb {R}}

Ennen oppimisen aloittamista toiminto alustetaan mielivaltaisesti. Sitten agentti tarkkailee jokaisella toimintavaihtoehdolla palkintoa ja uutta tilaa (mikä riippuu edellisestä tilasta ja nykyisestä toiminnasta). Algoritmin ydin on arvofunktion päivitys . Arvofunktion määritelmä päivitetään jokaisessa vaiheessa seuraavasti: $Q$

{\ displaystyle Q [s, a]: = (1- \ alfa) Q [s, a] + \ alfa \ vasen (r + \ gamma \ max _ {a '} Q [s', a '] \ oikea )}

missä on uusi tila, on edellinen tila, on valittu toiminto, on agentin saama palkkio , on luku välillä 0 ja 1, jota kutsutaan oppimistekijäksi , ja se on päivityskerroin . $s '$ $s$ $klo$ $r$ $\ alfa$ $\gamma$

Jakso algoritmista päättyy, kun se on lopullinen tila. Kuitenkin - oppimista voidaan soveltaa myös ei-episodisiin tehtäviin. Jos diskonttakerroin on pienempi kuin 1, toimintatilan arvo on rajallinen jopa äärettömyyteen. $s _ {{t + 1}}$ $Q$ $\ Delta t$

Huom: Jokaisen lopullisen tilan arvoa ei koskaan päivitetä, ja se säilyttää alkuperäisen arvonsa. Yleensä se alustetaan nollaan. ${\ displaystyle s_ {f}}$ ${\ displaystyle Q (s_ {f}, a)}$ ${\ displaystyle Q (s_ {f}, a)}$

Pseudokoodi

Tässä on Q-oppimisen pseudokoodi.

initialiser Q[s, a] pour tout état s, toute action a de façon arbitraire, mais Q(état terminal, a) = 0 pour toute action a répéter //début d'un épisode initialiser l'état s répéter //étape d'un épisode choisir une action a depuis s en utilisant la politique spécifiée par Q (par exemple ε-greedy) exécuter l'action a observer la récompense r et l'état s' Q[s, a] := Q[s, a] + α[r + γ maxa' Q(s', a') - Q(s, a)] s := s' a := a' jusqu'à ce que s soit l'état terminal

Muuttujien vaikutus algoritmiin

Oppimistekijä

Oppimistekijä määrää, kuinka paljon uusi laskettu tieto ylittää vanhan. Jos = 0, agentti ei opi mitään. Päinvastoin, jos = 1, agentti jättää aina huomioimatta kaiken oppimansa ja ottaa huomioon vain viimeisen tiedon. $\ alfa$ $\ alfa$ $\ alfa$

Deterministisessä ympäristössä oppimisnopeus on optimaalinen. Kun ongelma on stokastinen, algoritmi lähentyy tietyissä olosuhteissa oppimisnopeudesta riippuen. Käytännössä tämä nopeus vastaa usein prosessin koko keston ajan. ${\ displaystyle \ alpha _ {t} (s, a) = 1}$ ${\ displaystyle \ alpha _ {t} (s, a) = 0,1}$

Alennuskerroin

Diskonttauskerroin $y$ määrittää tulevien palkkioiden koon. Kerroin 0 tekisi agentista myopisen, kun otetaan huomioon vain nykyiset palkkiot, kun taas tekijä lähellä 1 tuottaisi myös kauempana olevia palkkioita. Jos diskonttakerroin on lähellä tai yhtä suuri kuin 1, arvon arvo voi vaihdella. $Q$

Laajennukset ja vaihtoehdot

Kaksinkertainen Q- oppiminen

Koska Q- oppiminen käyttää maksimointiarviointia, Q- oppiminen yliarvioi toimintojen arvon ja siksi meluisissa ympäristöissä oppiminen on hidasta. Tämä ongelma ratkaistaan kaksois-Q- oppimiseksi kutsutulla muunnelmalla, joka käyttää kahta arviointitoimintoa ja on oppinut kahdesta eri kokemussarjasta. Päivitys tapahtuu poikittain: ${\ displaystyle Q ^ {A}}$ ${\ displaystyle Q ^ {B}}$

{\ displaystyle Q_ {t + 1} ^ {A} (s_ {t}, a_ {t}) = Q_ {t} ^ {A} (s_ {t}, a_ {t}) + \ alpha _ {t } (s_ {t}, a_ {t}) \ vasen (r_ {t} + \ gamma ~ Q_ {t} ^ {B} \ vasen (s_ {t + 1}, \ mathop {\ operaattorin nimi {arg ~ max }} _ {a} Q_ {t} ^ {A} (s_ {t + 1}, a) \ oikea) -Q_ {t} ^ {A} (s_ {t}, a_ {t}) \ oikea) }

{\ displaystyle Q_ {t + 1} ^ {B} (s_ {t}, a_ {t}) = Q_ {t} ^ {B} (s_ {t}, a_ {t}) + \ alpha _ {t } (s_ {t}, a_ {t}) \ vasen (r_ {t} + \ gamma ~ Q_ {t} ^ {A} \ vasen (s_ {t + 1}, \ mathop {\ operaattorin nimi {arg ~ max }} _ {a} Q_ {t} ^ {B} (s_ {t + 1}, a) \ oikea) -Q_ {t} ^ {B} (s_ {t}, a_ {t}) \ oikea) .}

Koska arvioitu arvo arvioidaan toista käytäntöä käyttäen, yliarvioinnin ongelma ratkaistaan. Asetetun algoritmin oppiminen voidaan suorittaa käyttämällä syvällisiä oppimistekniikoita, jolloin saadaan DQN: t ( syvät Q-verkot ). Silloin meillä voi olla kaksinkertainen DQN, jotta saavutamme paremman suorituskyvyn kuin alkuperäisellä DQN-algoritmilla.

Huomautuksia ja viitteitä

(fr) Tämä artikkeli on osittain tai kokonaan otettu Wikipedian englanninkielisestä artikkelista " Q-Learning " ( katso kirjoittajaluettelo ) .

Tambet Matiisen , " Demystifying Deep Reinforcement Learning | Laskennallinen neurotieteen laboratorio ” , osoitteessa neuro.cs.ut.ee ,19. joulukuuta 2015(käytetty 6. huhtikuuta 2018 )
CJ Watkins, Oppiminen viivästyneistä palkinnoista , Kings College, Cambridge, toukokuu 1989
(in) George F Luger, Artificial Intelligence: rakenteita ja strategioita monimutkaisten ongelmien ratkaisemiseksi. 5. painos. , Addison Wesley,2005, 903 Sivumäärä ( ISBN 0-321-26318-9 , lue verkossa ) , s. 448
Watkins ja Dayan, Q-oppiminen. Koneoppiminen , 1992
(in) David L. Poole ja Alan K. Mackworth , Artificial Intelligence , Cambridge University Press ,2009( ISBN 978-0-511-79479-7 , DOI 10.1017 / CBO9780511794797 , luettu verkossa ) , s. 469
Vahvistusoppiminen: Johdanto , Richard Sutton ja Andrew Barto, MIT Press, 1998.
(in) Stuart J. Russell ja Peter Norvig , Artificial Intelligence: Modern Approach , Prentice Hall ,2010, Kolmas painos. , 1132 Sivumäärä ( ISBN 978-0-13-604259-4 ) , s. 649
Hado van Hasselt , " Double Q-learning ", Advances in Neural Information Processing Systems , voi. 23,2011, s. 2613–2622 ( lue verkossa [PDF] )
Hado van Hasselt , Arthur Guez ja David Silver , " Deep reinforcement learning with double Q-learning ", AAAI-tekoälyn konferenssi ,2015, s. 2094–2100 ( lue verkossa [PDF] )