Bootstrap (tilastot)

Bootstrap
Luonto Menetelmä ( d )
Keksijä Bradley Efron

In tilastojen , bootstrap tekniikat ovat tilastollisen päättelyn menetelmät perustuvat useita replikaation datan datajoukon tutkittu, mukaan resampling tekniikoita. Ne ovat peräisin 1970-luvun lopulta, jolloin mahdollisuus intensiivisiin tietokonelaskelmiin tuli kohtuuhintaiseksi. Melkein vuosisadan ajan on laskettu arviot  : dispersiomittarit ( varianssi , keskihajonta ), luottamusvälit , hypoteesitestien päätöstaulukot jne. Todennäköisyyslakien matemaattisista lausekkeista, samoin kuin vain näiden likiarvot, kun laskenta ei ollut mahdollista. Tästä lähtien digitaalisen tekniikan stokastinen laskentamenetelmä mahdollistaa näiden arvioiden moninkertaistamisen ja ennen kaikkea kvantifioida näiden arvioiden herkkyyden alkuperäisen otoksen eli tutkitun aineiston erityispiirteille tutkimuksen tilastollisen analyysin ansiosta. alinäytteet mahdollisia.

Tämä menetelmä perustuu stokastinen simulaatioita, kuten menetelmät Monte Carlo , numeerisia menetelmiä Bayes ( Gibbs näytteenotin , algoritmi Metropolis-Hastings ), sillä erolla, että bootstrap ei vaadi muuta tietoa, joka on saatavilla yksilöiden alkuperäisen näytteen.

Tarkemmin sanottuna, ja tämä on termin "  uudelleennäyte  " merkitys, käynnistyshihna koostuu tilastollisten "uusien näytteiden" luomisesta, mutta vain tekemällä korvaaminen alkuperäisestä näytteestä. Menetelmän itsekeskeinen ja iteratiivinen näkökulma inspiroi sen englanninkielistä nimeä: todellakin, bootstrap tarkoittaa tosiasiaa "itsensä nostamisesta vetämällä omia nauhojaan tai tarkemmin " bootstrapit ", jotka englanniksi tarkoittavat ommeltuja nahkaisia ​​renkaita tai kangasta saappaiden reunaan viemään sormet niiden läpi, jotta ne olisivat helpommin päällä ”.

Yleinen käytäntö

Antaa olla näyte on n havaintojen, riippumattomia ja samoin jakautuneita (IID) erään (Tuntematon) laki . Haluamme arvioida määrän , kuten lain odotuksen , sen mediaanin tai varianssin. Ensimmäisessä tapauksessa toiminnallinen on

ja viimeisessä

kanssa toivoa, jonka ilmentyminen annettiin edellä.

Klassinen estimaatti on , missä on arvio jakautumisfunktiosta . Siksi on vielä saatava tämä arvio . Kaksi tapausta ilmenee:

Bootstrapin seuraava vaihe perustuu simulaatioihin: kun otetaan huomioon estimaatti (parametrinen tai ei) , saamme tästä laista vetoja, joiden avulla voidaan arvioida . Puhumme bootstrap-näytteestä yhden näistä piirroksista. Huomaa, että tässä piirustus ei koske havaintoa , vaan koko näyte, joka koostuu n itsenäisestä havainnosta. Bootstrap-näytteistä saatuja kokoelmia kutsutaan bootstrap-jakeluiksi .

Parametrisessa tapauksessa käynnistyshihna-menetelmä on samanlainen kuin simuloidut menetelmät, kuten Monte-Carlo-menetelmät . Ei-parametrisissa tapauksissa bootstrap-menetelmä tarkoittaa käynnistyshihnanäytteen käyttöä, joka koostuu uudelleennäytteistämisestä alkuperäisen näytteen korvaamisella . Menetelmä edellyttää siis simuloituja näytteitä; niiden lukumäärän, esimerkiksi , on oltava riittävän suuri, jotta voidaan varmistaa empiiristen arvioiden lähentyminen . On tavallista harkita simuloitua näytettä, joka on saman kokoinen kuin alkuperäinen näyte.

Oletetaan, että haluamme suuremman selvyyden vuoksi arvioida lain odotuksen ja erityisesti tämän odotuksen estimaatin tarkkuuden (eli odotuksen varianssin). Näin voit tehdä sen. Asetimme ensin näytteiden lukumäärän. Menettely on seuraava:

Tässä viimeisessä vaiheessa meidän on arvioitava

,

kanssa

joka on vaihtoehto klassiselle estimaattorille

.

Ei-parametrisen käynnistyshihnan osalta simulointivaihe on hyvin yksinkertainen: se on käynnistyshihnan näyte, joka saadaan yksinkertaisesti uudelleen näytteistämällä korvaamalla alkuperäinen näyte. Esimerkiksi alkunäytteelle (1,2,5,4) bootstrap-näyte on esimerkiksi (5,5,4,1) tai taas (4,1,4,2) ja niin edelleen.

Luottamusväli

Käynnistyshihna antaa myös kuvan estimaatin luottamusvälistä . Käynnistyshihnan luottamusväli tasolla määritetään tunnistamalla käynnistyshihnan jakelun kvantiilit , jättäen jakelun molemmat puolet . Siten 5%: n kynnyksellä luottamusväli rajataan yksinkertaisesti käynnistyshihnan jakauman 2,5%: n ja 97,5%: n prosenttipisteillä.

Käynnistyshihnan luottamusvälin saamiseksi useiden simulaatioiden on oltava riittävän suuria; erityisesti .

Tämä tekniikka on voimassa vain, kun käynnistyshihnan jakauma on symmetrinen ja keskitetty alkuperäiseen näytteeseen. Tutkimme kannattavasti lähdeluettelossa mainittuja teoksia määritellaksemme tekniikat - enemmän tai vähemmän triviaalit -, jotka mahdollistavat tämän tapauksen ymmärtämisen.

Lineaarinen regressio

Bootstrap voidaan soveltaa myös määrittämiseen luottamusvälin parametrin tapauksessa klassisen lineaarisen regression . Tätä tapausta kutsutaan sileäksi käynnistyshihnaksi englanniksi.

Lineaarisessa regressiomallissa

oletetaan, että riippuva muuttuja y ja vaarat ovat ulottuvuus , selittävä tekijät ulottuvuus ja jotka on kertoimet voidaan määrittää.

Klassisen oletukset lineaarisen regression voidaan päätellä, että estimaattori , jonka pienimmän neliösumman , jaetaan yleensä  :

Siten välille ja voimme rakentaa luottamusvälin  %  : n kynnyksellä seuraaville :

Tässä kaavassa on Studentin lain kvantiili , matriisin tavanomainen estimaattori ja elementti .

Käynnistyshihnaa käytetään tarjoamaan vaihtoehto tälle luottamusvälille. Vaaroja ei voida havaita, koska niiden lakia ei tunneta. Bootstrap-lähestymistavassa vaarat korvataan jäännöksillä:

Käynnistyshihna etenee seuraavasti:

Bootstrap-testi

Ohjelmistokirjasto

Esimerkki

Ihmiskehon mittoja koskevista 507 havainnosta käytetään 34: tä. Paino (kilogrammoina) ja pituus (metreinä) uutetaan kehon massaindeksin laskemiseksi , joka määritellään painon ja korkeuden neliösuhteena. Tiedot toistetaan alla.

34 käytettävissä olevaa tietoa
paino leikata BMI
65,60 1.74 21.67
71.80 1.75 23.36
80,70 1.94 21.55
72,60 1.87 20.87
78,80 1.87 22.49
74,80 1.82 22.71
62,00 1.75 20.24
81,60 1.84 24.10
76,60 1.80 23.64
83,60 1.78 26.44
74,60 1.76 24.08
76.40 1.80 23.50
63.20 1.65 23.36
60,90 1.73 20.35
74,80 1.84 22.21
59,50 1.70 20.59
67.20 1.82 20.29
61.30 1.70 21.21
68,60 1.78 21.70
55.20 1.64 20.50
57.00 1.63 21.45
66.10 1.72 22.40
72,00 1.82 21.74
64,60 1.67 23.16
74,80 1.78 23.66
70,00 1.65 25,87
68.40 1.77 21.96
65,90 1.69 22.96
75,70 1.82 22.83
73.20 1.77 23.29
53,90 1.67 19.23
72,00 1.78 22.70
55,50 1.69 19.46
58.40 1.57 23.63

Olemme kiinnostuneita BMI : n odotuksista . Luonnollinen estimaattori on empiirinen keskiarvo:

Tämän havaitun empiirisen keskiarvon varianssin estimaattori tunnetaan nimenomaisesti: se saadaan empiirisestä varianssista jaettuna n: llä , toisin sanoen:

Empiiriset arviot ovat ja .

Voimme verrata bootstrap-tekniikoilla saatuihin tuloksiin. Käytämme bootstrap-näytteitä . Muistutamme seuraavasta menettelystä:

Nämä laskelmat ovat seuraavat:

ja

Empiirinen keskiarvo on ja tämän empiirisen keskiarvon estimaatin varianssi on arvot, jotka ovat hyvin lähellä ei-bootstrap-estimaatteja. Lisäksi bootstrap-jakelu näyttää normaalilta, kuten qq-juoni osoittaa . Voisimme sitten rakentaa käynnistyshihnan luottamusvälin otoksen hyvin pienestä koosta huolimatta.

Huomautuksia ja viitteitä

Huomautuksia

  1. (sisään) vetää itsensä ylös omalla bootstrapilla . Tämä viittaa paroni Münchhausenin seikkailuihin , joiden uskotaan paenneen suosta, johon hänet oli upotettu vetämällä itseään saappaista ja työntäen itsensä siten ilmaan. Yleisemmin bootstrapit ovat nahasta tai kankaasta valmistettuja renkaita, jotka on ommeltu saappaiden reunaan ja joiden läpi lyöt sormia auttaaksesi niitä. Vaihtoehtoinen nimi (ja käytännössä vähän käytetty) Cyranon menetelmä viittaa samaan jaksoon, mutta Edmond Rostand otti sen esiin Cyrano de Bergeracissaan (III näytös, kohtaus 13, noin 1664 - 1669).
  2. Emme ottaneet vaivaa sisällyttää indeksi b otokseen luokitusten keventämiseksi.
  3. Viitteenä mainituista teoksista viitataan lähdeluettelossa.

Viitteet

  1. (in) Grete Heinz Louis J. Peterson, Roger W. Johnson, Carter J. Kerk "  Exploring Ihmissuhteet Rungon koko  " , Journal of Statistics Education , vol.  11, n o  22003( lue verkossa )

Bibliografia

Katso myös

Sisäiset linkit

Ulkoiset linkit

<img src="https://fr.wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1x1" alt="" title="" width="1" height="1" style="border: none; position: absolute;">