Ristivalidointi

Ristivalidointi ( cross-validointi  " ) on, on kone oppiminen , menetelmä arvion luotettavuuden perustuvan mallin tekniikka näytteenotto .

Ristivahvistuksen hyödyllisyys

Oletetaan, että meillä on tilastollinen malli, jossa on yksi tai useampi tuntematon parametri, ja koulutustietojoukko, jolta voimme oppia (tai "kouluttaa") mallia. Harjoitusprosessi optimoi mallin parametrit siten, että se vastaa harjoitustietoja mahdollisimman tarkasti. Jos otamme sitten riippumattoman validointinäytteen, oletettavasti samasta populaatiosta kuin koulutusnäyte, käy yleensä ilmi, että malli ei mallintaa validointitietoja sekä koulutustietoja: puhumme ylisovituksesta . Riippumatonta validointinäytettä ei kuitenkaan aina ole saatavana. Lisäksi mallin validointinäyttö voi vaihdella validointinäytteestä toiseen. Ristivalidointi mahdollistaa useiden validointijoukkojen johtamisen samasta tietokannasta ja siten mallin validointisuorituskyvyn vankemman estimoinnin esijännityksellä ja varianssilla.

Vahvistustekniikat

Validoinnista on monia muunnelmia, mutta voimme ensin erottaa:

Tietojen jakelutaulukko ristivalidoinnille k = 3 lohkossa
k lohko 1 lohko 2 lohko 3
1 validointi oppiminen oppiminen
2 oppiminen validointi oppiminen
3 oppiminen oppiminen validointi

Mallin validoinnin jälkeen on sitten tarpeen siirtyä testiin aiemmin varatun testisarjan kanssa.

Epätasapainoisten tietokantojen hallinta

Vuonna luokittelu tehtävät , jakelu luokkien tietokantaan ei ehkä ole tasapainossa, eli havaintojen määrä luokkaa kohti voi olla sama yhdestä luokasta toiseen: Jos merkitään havaintojen määrä on nnen luokan, niin se on olemassa tällaisia sitä . Tällöin on suositeltavaa käyttää kerrostettua ristivalidointia ("kerrostettu ristivalidointi") , jotta validoinnin (ja oppimisen) suorituskyky ei muutu ennakkoluuloksi vaihtamalla luokkien jakautumista validointijaksoista toiseen (tai oppimiseen ) . Stratifikaatio koostuu siitä, että luokkien jakauma on sama kaikissa käytetyissä koulutus- ja validointisarjoissa. Toisin sanoen, jos alkuperäisessä tietokannassa esitetään esimerkiksi 3 luokan 1 havainnoa luokan 2 7 havainnoinnille, niin jokaisen validointijoukon (tai vastaavasti oppimisen) on esitettävä tämä suhde 3 7: lle.

Jos kyseessä on ristivalidointi lohkoilla, kyse on yksinkertaisesti luokkien jakamisesta samalla tavalla lohkosta toiseen. Siitä johtuvat validointi- ja koulutusjoukot perivät tämän jakelun.

Katso myös

Sisäiset linkit

Viitteet

  1. Payam Refaeilzadeh, Lei Tang, Huan Liu, "  Cross-Validation  " ( ArkistoWikiwixArchive.isGoogle • Que faire? ) (Käytetty 20. huhtikuuta 2020 )
  2. Andrew W. Moore, Ristiintarkastus ylivarustamisen havaitsemiseksi ja estämiseksi


<img src="https://fr.wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1x1" alt="" title="" width="1" height="1" style="border: none; position: absolute;">