Erotteleva analyysi

Erotteleva analyysi
Alaluokka Tilastollinen menetelmä ( d )

Erotteluanalyysiä ( AFD ) tai yksinkertaisesti erotteluanalyysiä on tekniikka tilastoja , jonka tarkoituksena on kuvata, selittää ja ennustaa jäsenyyden ennalta ryhmissä (luokat, luokat muuttujan ennustaa ...) joukon havaintoja (yksityishenkilöt, esimerkkejä ...) ennustavien muuttujien sarjasta (kuvaajat, eksogeeniset muuttujat ...).

Diskriminanttianalyysiä käytetään monilla aloilla.

Erotteluanalyysi on tunnettu ja hyväksytty tekniikka on kuvattu, noin identtisellä tavalla eri yhteisöissä, tietojenkäsittely: valmisteleva tilastotietojen ( valmisteleva data-analyysi ), jonka datan analysointiin on hahmontunnistus ( hahmontunnistusta ) on koneen oppiminen ( kone oppiminen ), tiedot kaivostoiminta ( tiedonlouhinta ) ...

Tietotaulukko

Flas Beetles Dataset -tiedostossa, johon viitataan DASL-sivustossa ( Data and Story Library ), havaitaan kolme kirppuperhettä, joille on tunnusomaista ruokatorven kulma ja leveys, urospuolinen lisääntymiselin.

Tässä tiedostossa on 74 havaintoa. Lajin muuttuja osoittaa perheen kunkin siru, on kolme {Con - concinna, Hei - Heikertingeri, Hep - Heptapotamica}. Kirput kuvataan kahden jatkuvan muuttujan avulla: niiden aedeagusin leveys ( leveys ) ja kulma.

Koska tietoja kuvataan kahdella muuttujalla, on mahdollista esittää sirontakaavio XY-kuvaajassa, jonka leveys on abscissassa ja kulma (kulma) ordinaatissa. Tämä ei ole enää mahdollista, kun kuvailijoiden lukumäärä on yli kaksi, erottelevan analyysin yksi rooleista on nimenomaan ehdottaa sopivaa graafista esitystä pienennetyssä tilassa.

Eri lähestymistavat tavoitteista riippuen

Päätapoja on yleensä kaksi:

Näiden kahden lähestymistavan välinen ero ei ole niin selvä. On esimerkiksi mahdollista johtaa geometriset määrityssäännöt diskriminanttianalyysistä.

Kuvaava diskriminanttianalyysi

Kuvaava diskriminanttianalyysi (kanoninen diskriminanttianalyysi) on etsivä tilastollinen tekniikka, joka toimii muuttujien kuvaamien havaintojen joukossa jaoteltuina ryhmiin. Sen tarkoituksena on tuottaa uusi esitysjärjestelmä, joka koostuu alkumuuttujien lineaarisista yhdistelmistä, mikä sallii luokkien erottamisen mahdollisimman hyvin .

Toisin kuin ennakoiva diskriminanttianalyysi, se ei perustu mihinkään todennäköisyysoletukseen. Se on pohjimmiltaan geometrinen menetelmä.

Merkinnät - Formulaatiot

Tiedot ja arviot

Meillä on näyte havainnoista jaettuna numeroihin .

Huomaa muuttuja, joka määrittelee ryhmät, se ottaa arvot sisään . Meillä on muuttujia .

Merkitsemme ehdollisten pilvien painopisteitä, niiden varianssi-kovarianssimatriisia .

Askeleet

Diskriminanttianalyysin tavoitteena on tuottaa uusi esitystila, jonka avulla K-ryhmät voidaan erottaa parhaiten. Lähestymistapa koostuu erilaisten muuttujien tuotannosta , joita ei ole korreloitu kaksi kerrallaan siten, että saman ryhmän yksilöt, jotka heijastuvat näille akseleille, ovat mahdollisimman lähellä toisiaan ja että eri ryhmien yksilöt ovat mahdollisimman kaukana.

  • Ryhmän sisäinen hajonta kuvataan varianssikovarianttimatriisilla . Voimme päätellä (kertoimeen saakka) ryhmän sisäisen dispersiomatriisin
  • Ryhmien välinen etäisyys, ryhmien painopisteiden välillä, näkyy ryhmien välisen varianssin kovarianssimatriisina (kertoimeksi asti) , missä on globaalin pistepilven painopiste.
  • Pilven kokonaisdispersio saadaan kokonaisvarianssikovarianttimatriisilla . Huyghensin lauseen (joka on varianssin hajoamisen kaavan moniulotteinen yleistys) nojalla:

Siksi ohjausvektori määrittelee ensimmäisen tekijäakselin siten , että määrä maksimoidaan . Tämän ensimmäisen tekijän akselin luokkien välinen varianssi on suurin.

Ratkaisu

Tämän lineaarisen optimointiongelman ratkaisu edellyttää yhtälön ratkaisemista . Vastaus saadaan meille suoraan laskemalla matriisin ominaisarvot ja ominaisvektorit .

  • Ensimmäinen tekijäakseli saadaan siis käyttämällä suurinta ominaisarvoa vastaavaa ominaisvektoria . Toinen tekijäakseli määritetään seuraavalla ominaisvektorilla jne.
  • Faktooriakselien joukko määritetään matriisin ei-nollan ominaisarvojen perusteella . Tavallisessa tapauksessa, jossa saadaan tekijäakselit.
  • Lopuksi kerroinakselille laskettu luokkien välinen varianssi , jota kutsutaan myös akselin erotteluvoimaksi , on yhtä suuri kuin siihen liittyvä ominaisarvo .

Arviointi

Arviointi on kahdella tasolla: tekijäakselin erotteluvoiman arviointi; arvioida tekijäakselijoukon erotteluvoima. Ajatuksena on pystyä määrittämään riittävä akselien määrä erottamaan havainnointiryhmät uudessa esitysjärjestelmässä.

Tietenkin näillä arvioinneilla on merkitystä vain, jos ryhmät ovat havaittavissa alkuperäisessä edustustilassa. Siksi meidän on ensin arvioitava, missä määrin ryhmien painopisteet ovat erilliset. Toisin sanoen on kyse tarkistamisesta, onko yhtälön V = B + W osa B riittävän suuri, jotta se kannattaa hajottaa myöhemmin.

MANOVA-testi

Kokotesti on kuin monisuuntainen yksisuuntainen varianssianalyysi. Tässä yhteydessä esitämme hypoteesin, jonka mukaan havainnot seuraavat moniulotteista normaalijakaumaa. Löydämme tämän testin myös ennustavassa diskriminanttianalyysissä ( lineaarinen diskriminanttianalyysi ). Tilastollinen testi on Wilks' Lambda, joka on yhtä suuri kuin suhde (| | tarkoittaa determinanttia matriisi). Fisherin lain mukaista Rao-muunnosta käyttämällä voimme selvittää, pitäisikö meidän hyväksyä vai kumota hypoteesi ryhmien painopisteiden tasa-arvosta.

Varianssiosuus selitetty

Kukin akseli raportoi osan luokkien välisestä varianssista B. Yksinkertainen lähestymistapa akselin tärkeyden arvioimiseksi on laskea selitetyn varianssin osa, jonka ominaisarvo kääntää. Omiarvon osuus, ts. akselin ominaisarvon ja kaikkien akselien ominaisarvojen kokonaissumman välinen suhde antaa meille hyvän osoituksen akselin roolista.

Korrelaatioraportti

Toinen tapa ilmoittaa akselin tärkeys on laskea korrelaatio-suhde. Se perustuu varianssin hajoamiskaavaan. Faktoriallisella akselilla se on yhtä suuri kuin suhde (ryhmien välisten neliöiden summa jaettuna neliöiden kokonaissummalla edustaa havaintoa).

Akseli on sitäkin mielenkiintoisempi, jos sillä on korkea korrelaatiosuhde. Anglo-Saxon-ohjelmistossa akselikorrelaatiosuhteen neliöjuuria kutsutaan h: nneksi kanoniseksi korrelaatioksi.

Peräkkäinen juuritesti

Esittelemällä jälleen hypotaasi multinormaalisuudesta ja homoscedastisuudesta (katso ennakoiva diskriminanttianalyysi) voimme testata viimeisten korrelaatioiden suhde. Testi perustuu Wilksin tilastoon . Nollahypoteesi ( korrelaatioasteiden nollaus ) mitätöidään pienille arvoille .

Mitä tulee maailmanlaajuiseen testiin, muutos toteutetaan palatakseen nykyisen käytön jakelulakeihin. Bartlettin muutosta tarjotaan usein ohjelmistoissa. Se noudattaa chi-neliön lakia, jolla on vapauden asteita. Nollahypoteesi hylätään, jos laskettu kriittinen todennäköisyys on pienempi kuin itsellemme asettaman ensiluokkaisen riskin (luottamustaso).

Palataan takaisin yllä olevaan globaaliin MANOVA-testiin (Wilks 'Lambda), jos testataan korrelaatioasteiden mitätöinti kaikilla tekijäakseleilla. Toisin sanoen , mikä on melko luonnollista, koska se merkitsee kaikkien akselien testaamista.

Esimerkki

Kuuluisa IRIS- tiedosto kuvaa menetelmää. Fisher itse ehdotti ja käytti sitä havainnollistamaan syrjivä analyysi. Siinä on 150 kukkaa, jotka on kuvattu 4 muuttujalla (terälehtien ja lehtipuiden pituus ja leveys) ja ryhmitelty kolmeen luokkaan (Setosa, Versicolor ja Virginica).

Tavoitteena on tuottaa tekijäsuunnitelma (3 luokkaa ⇒ 2 akselia), jonka avulla nämä kategoriat voidaan erottaa mahdollisimman hyvin ja sitten selittää niiden asemat.

Factorial-akselit

Laskelma tuottaa seuraavat tulokset.

Akseli Val. puhdas Osuus Canonical R Wilks KHI-2 DDL p-arvo
1 32,272 0,991 0,985 0,024 545,58 8 0,0
2 0,277 1.0 0,466 0,783 35.6 3 0,0

Nämä kaksi akselia ovat maailmanlaajuisesti merkittäviä. Itse asiassa kahden akselin mitätöinnin Wilks-lambda on yhtä suuri kuin 0,023525 ( tässä). Bartlettin KHI-2 on yhtä suuri kuin 545,57, vapausaste on (2 x (4-3 + 2 + 1)) = 8, se on erittäin merkittävä ( hyvin pieni p-arvo ).

Huomaa kuitenkin, että ensimmäinen akseli heijastaa 99,1% selitetystä varianssista. Voimme perustellusti kysyä, onko toinen akseli merkityksellinen ryhmien syrjinnän kannalta. Riittää, että testataan viimeisen akselin ( ) virheellisyys . Lambda on korkeampi (0,78), mikä johtaa pienempään KHI-2: een (35,64) (1 x (4-3 + 1 + 1)) = 3 vapausasteessa, se on kuitenkin merkittävä, jos asetamme itsellemme luottamuksen 5 prosentin taso.

Tämän tuloksen perusteella meidän olisi pidettävä kaksi akselia. Näemme alla, että tämä tulos olisi asetettava perspektiiviin.

Graafinen esitys

Projisoimalla pisteet faktorialtaiseen tasoon saadaan seuraava sijoittelu.

Faktorisuunnittelu - kuvaileva erotteleva analyysi

Erotamme selvästi kolme kukkaluokkaa. Huomaa myös, että ensimmäinen akseli mahdollistaa jo niiden eristämisen sopivasti. Toisella akselilla, vaikka ryhmien painopisteet näyttävät erillisiltä, ​​erottelu ei ole niin selvää.

Tästä kaaviosta löydämme selvästi sen, mitä aistimme selitetyn varianssisuhteen kanssa. Ensimmäinen akseli on suurelta osin riittävä ryhmien erottamiseksi toisistaan. Vaikka toinen akseli on tilastollisesti merkitsevä, se ei tarjoa todellista lisätietoa.

Hyvin usein visuaaliset tekniikat tarjoavat erittäin merkityksellisen vastapisteen raakalukuisille tuloksille.

Uusien henkilöiden projektio

Lisähavaintojen heijastamiseksi tekijätasolle ohjelmisto tarjoaa erottelevien funktioiden yhtälöt. Riittää, kun niitä sovelletaan luokiteltavan yksilön kuvaukseen, jotta saat koordinaatit uudesta viitekehyksestä.

IRIS-esimerkissä saadaan seuraavat kertoimet.

Muuttujat Akseli 1 Akseli 2
Sepän pituus -0,819 -0,033
Kalvon leveys -1,548 -2,155
Terälehden pituus 2,185 0,930
Terälehden leveys 2.854 -2,806
Jatkuva -2,119 6,640
Akselien tulkinta

Viimeisenä, eikä vähäisimpänä, meidän on ymmärrettävä ryhmien suhteellinen sijoittelu, toisin sanoen selitettävä alkumuuttujien avulla luokkien jäsenyys.

Tätä varten, kuten tekijäkohtaiset tekniikat, kuten pääkomponenttianalyysi (PCA) - erotuskerroinanalyysi voidaan nähdä PCA: n erityistapauksena - ohjelmisto tarjoaa korrelaatiomatriisin. Toisin kuin PCA, voidaan tuottaa kolmenlaisia ​​korrelaatioita: yleinen korrelaatio akselien ja alkumuuttujien välillä; ryhmän sisäinen korrelaatio, laskettuna ryhmien sisällä; luokkien välinen korrelaatio laskettuna niiden taajuuksilla painotettujen ryhmien painopisteistä.

IRIS-esimerkissä, jos pidämme kiinni ensimmäisestä akselista, saamme seuraavat korrelaatiot.

Muuttujat Kaikki yhteensä Ryhmien sisäinen Ryhmien välinen
Syyskuun pituus 0,792 0,222 0,992
Syysleveys -0,523 -0,116 -0,822
Lemmikin pituus 0,985 0,705 1000
Lemmikin leveys 0,973 0,632 0,994

Luokkien välinen korrelaatio, joka heijastaa ryhmien sijoittumista akseleille, osoittaa tässä, että Virginicalla on melko pitkät verhosivut, tärkeiden terälehtien pituudet ja leveydet. Setosilla on toisaalta vähentynyt verhon pituus, terälehtien pituus ja leveys. Versicolorsilla on väliasento.

Verotus on päinvastainen verhojen leveyden suhteen.

Huomautuksia ja viitteitä

  1. Flea Beetles -tietojoukko
  2. DASL

Bibliografia

  • M. Bardos , Diskriminanttianalyysi - soveltaminen riski- ja taloudellisiin pisteytyksiin , Dunod, 2001.
  • Gilbert Saporta , todennäköisyys, tietojen analysointi ja tilastot , Pariisi, Éditions Technip,2006, 622  Sivumäärä [ yksityiskohdat painoksista ] ( ISBN  978-2-7108-0814-5 , online-esitys )
  • L. Lebart, A. Morineau, M. Piron, Moniulotteiset tutkimustilastot , Dunod, 2000.
  • M. Tenenhaus , Tilastolliset menetelmät johtamisessa , Dunod, 1996.
  • Michael Volle , Data Analysis , Economica, 4 th  painos, 1997 ( ISBN  2-7178-3212-2 )