Ristivalidointi ( " cross-validointi " ) on, on kone oppiminen , menetelmä arvion luotettavuuden perustuvan mallin tekniikka näytteenotto .
Oletetaan, että meillä on tilastollinen malli, jossa on yksi tai useampi tuntematon parametri, ja koulutustietojoukko, jolta voimme oppia (tai "kouluttaa") mallia. Harjoitusprosessi optimoi mallin parametrit siten, että se vastaa harjoitustietoja mahdollisimman tarkasti. Jos otamme sitten riippumattoman validointinäytteen, oletettavasti samasta populaatiosta kuin koulutusnäyte, käy yleensä ilmi, että malli ei mallintaa validointitietoja sekä koulutustietoja: puhumme ylisovituksesta . Riippumatonta validointinäytettä ei kuitenkaan aina ole saatavana. Lisäksi mallin validointinäyttö voi vaihdella validointinäytteestä toiseen. Ristivalidointi mahdollistaa useiden validointijoukkojen johtamisen samasta tietokannasta ja siten mallin validointisuorituskyvyn vankemman estimoinnin esijännityksellä ja varianssilla.
Validoinnista on monia muunnelmia, mutta voimme ensin erottaa:
k | lohko 1 | lohko 2 | lohko 3 |
---|---|---|---|
1 | validointi | oppiminen | oppiminen |
2 | oppiminen | validointi | oppiminen |
3 | oppiminen | oppiminen | validointi |
Mallin validoinnin jälkeen on sitten tarpeen siirtyä testiin aiemmin varatun testisarjan kanssa.
Vuonna luokittelu tehtävät , jakelu luokkien tietokantaan ei ehkä ole tasapainossa, eli havaintojen määrä luokkaa kohti voi olla sama yhdestä luokasta toiseen: Jos merkitään havaintojen määrä on nnen luokan, niin se on olemassa tällaisia sitä . Tällöin on suositeltavaa käyttää kerrostettua ristivalidointia ("kerrostettu ristivalidointi") , jotta validoinnin (ja oppimisen) suorituskyky ei muutu ennakkoluuloksi vaihtamalla luokkien jakautumista validointijaksoista toiseen (tai oppimiseen ) . Stratifikaatio koostuu siitä, että luokkien jakauma on sama kaikissa käytetyissä koulutus- ja validointisarjoissa. Toisin sanoen, jos alkuperäisessä tietokannassa esitetään esimerkiksi 3 luokan 1 havainnoa luokan 2 7 havainnoinnille, niin jokaisen validointijoukon (tai vastaavasti oppimisen) on esitettävä tämä suhde 3 7: lle.
Jos kyseessä on ristivalidointi lohkoilla, kyse on yksinkertaisesti luokkien jakamisesta samalla tavalla lohkosta toiseen. Siitä johtuvat validointi- ja koulutusjoukot perivät tämän jakelun.