Alaluokka | Tilastollinen menetelmä ( d ) |
---|
Erotteluanalyysiä ( AFD ) tai yksinkertaisesti erotteluanalyysiä on tekniikka tilastoja , jonka tarkoituksena on kuvata, selittää ja ennustaa jäsenyyden ennalta ryhmissä (luokat, luokat muuttujan ennustaa ...) joukon havaintoja (yksityishenkilöt, esimerkkejä ...) ennustavien muuttujien sarjasta (kuvaajat, eksogeeniset muuttujat ...).
Diskriminanttianalyysiä käytetään monilla aloilla.
Erotteluanalyysi on tunnettu ja hyväksytty tekniikka on kuvattu, noin identtisellä tavalla eri yhteisöissä, tietojenkäsittely: valmisteleva tilastotietojen ( valmisteleva data-analyysi ), jonka datan analysointiin on hahmontunnistus ( hahmontunnistusta ) on koneen oppiminen ( kone oppiminen ), tiedot kaivostoiminta ( tiedonlouhinta ) ...
Flas Beetles Dataset -tiedostossa, johon viitataan DASL-sivustossa ( Data and Story Library ), havaitaan kolme kirppuperhettä, joille on tunnusomaista ruokatorven kulma ja leveys, urospuolinen lisääntymiselin.
Tässä tiedostossa on 74 havaintoa. Lajin muuttuja osoittaa perheen kunkin siru, on kolme {Con - concinna, Hei - Heikertingeri, Hep - Heptapotamica}. Kirput kuvataan kahden jatkuvan muuttujan avulla: niiden aedeagusin leveys ( leveys ) ja kulma.
Koska tietoja kuvataan kahdella muuttujalla, on mahdollista esittää sirontakaavio XY-kuvaajassa, jonka leveys on abscissassa ja kulma (kulma) ordinaatissa. Tämä ei ole enää mahdollista, kun kuvailijoiden lukumäärä on yli kaksi, erottelevan analyysin yksi rooleista on nimenomaan ehdottaa sopivaa graafista esitystä pienennetyssä tilassa.
Päätapoja on yleensä kaksi:
Näiden kahden lähestymistavan välinen ero ei ole niin selvä. On esimerkiksi mahdollista johtaa geometriset määrityssäännöt diskriminanttianalyysistä.
Kuvaava diskriminanttianalyysi (kanoninen diskriminanttianalyysi) on etsivä tilastollinen tekniikka, joka toimii muuttujien kuvaamien havaintojen joukossa jaoteltuina ryhmiin. Sen tarkoituksena on tuottaa uusi esitysjärjestelmä, joka koostuu alkumuuttujien lineaarisista yhdistelmistä, mikä sallii luokkien erottamisen mahdollisimman hyvin .
Toisin kuin ennakoiva diskriminanttianalyysi, se ei perustu mihinkään todennäköisyysoletukseen. Se on pohjimmiltaan geometrinen menetelmä.
Meillä on näyte havainnoista jaettuna numeroihin .
Huomaa muuttuja, joka määrittelee ryhmät, se ottaa arvot sisään . Meillä on muuttujia .
Merkitsemme ehdollisten pilvien painopisteitä, niiden varianssi-kovarianssimatriisia .
AskeleetDiskriminanttianalyysin tavoitteena on tuottaa uusi esitystila, jonka avulla K-ryhmät voidaan erottaa parhaiten. Lähestymistapa koostuu erilaisten muuttujien tuotannosta , joita ei ole korreloitu kaksi kerrallaan siten, että saman ryhmän yksilöt, jotka heijastuvat näille akseleille, ovat mahdollisimman lähellä toisiaan ja että eri ryhmien yksilöt ovat mahdollisimman kaukana.
Siksi ohjausvektori määrittelee ensimmäisen tekijäakselin siten , että määrä maksimoidaan . Tämän ensimmäisen tekijän akselin luokkien välinen varianssi on suurin.
RatkaisuTämän lineaarisen optimointiongelman ratkaisu edellyttää yhtälön ratkaisemista . Vastaus saadaan meille suoraan laskemalla matriisin ominaisarvot ja ominaisvektorit .
Arviointi on kahdella tasolla: tekijäakselin erotteluvoiman arviointi; arvioida tekijäakselijoukon erotteluvoima. Ajatuksena on pystyä määrittämään riittävä akselien määrä erottamaan havainnointiryhmät uudessa esitysjärjestelmässä.
Tietenkin näillä arvioinneilla on merkitystä vain, jos ryhmät ovat havaittavissa alkuperäisessä edustustilassa. Siksi meidän on ensin arvioitava, missä määrin ryhmien painopisteet ovat erilliset. Toisin sanoen on kyse tarkistamisesta, onko yhtälön V = B + W osa B riittävän suuri, jotta se kannattaa hajottaa myöhemmin.
MANOVA-testiKokotesti on kuin monisuuntainen yksisuuntainen varianssianalyysi. Tässä yhteydessä esitämme hypoteesin, jonka mukaan havainnot seuraavat moniulotteista normaalijakaumaa. Löydämme tämän testin myös ennustavassa diskriminanttianalyysissä ( lineaarinen diskriminanttianalyysi ). Tilastollinen testi on Wilks' Lambda, joka on yhtä suuri kuin suhde (| | tarkoittaa determinanttia matriisi). Fisherin lain mukaista Rao-muunnosta käyttämällä voimme selvittää, pitäisikö meidän hyväksyä vai kumota hypoteesi ryhmien painopisteiden tasa-arvosta.
Varianssiosuus selitettyKukin akseli raportoi osan luokkien välisestä varianssista B. Yksinkertainen lähestymistapa akselin tärkeyden arvioimiseksi on laskea selitetyn varianssin osa, jonka ominaisarvo kääntää. Omiarvon osuus, ts. akselin ominaisarvon ja kaikkien akselien ominaisarvojen kokonaissumman välinen suhde antaa meille hyvän osoituksen akselin roolista.
KorrelaatioraporttiToinen tapa ilmoittaa akselin tärkeys on laskea korrelaatio-suhde. Se perustuu varianssin hajoamiskaavaan. Faktoriallisella akselilla se on yhtä suuri kuin suhde (ryhmien välisten neliöiden summa jaettuna neliöiden kokonaissummalla edustaa havaintoa).
Akseli on sitäkin mielenkiintoisempi, jos sillä on korkea korrelaatiosuhde. Anglo-Saxon-ohjelmistossa akselikorrelaatiosuhteen neliöjuuria kutsutaan h: nneksi kanoniseksi korrelaatioksi.
Peräkkäinen juuritestiEsittelemällä jälleen hypotaasi multinormaalisuudesta ja homoscedastisuudesta (katso ennakoiva diskriminanttianalyysi) voimme testata viimeisten korrelaatioiden suhde. Testi perustuu Wilksin tilastoon . Nollahypoteesi ( korrelaatioasteiden nollaus ) mitätöidään pienille arvoille .
Mitä tulee maailmanlaajuiseen testiin, muutos toteutetaan palatakseen nykyisen käytön jakelulakeihin. Bartlettin muutosta tarjotaan usein ohjelmistoissa. Se noudattaa chi-neliön lakia, jolla on vapauden asteita. Nollahypoteesi hylätään, jos laskettu kriittinen todennäköisyys on pienempi kuin itsellemme asettaman ensiluokkaisen riskin (luottamustaso).
Palataan takaisin yllä olevaan globaaliin MANOVA-testiin (Wilks 'Lambda), jos testataan korrelaatioasteiden mitätöinti kaikilla tekijäakseleilla. Toisin sanoen , mikä on melko luonnollista, koska se merkitsee kaikkien akselien testaamista.
Kuuluisa IRIS- tiedosto kuvaa menetelmää. Fisher itse ehdotti ja käytti sitä havainnollistamaan syrjivä analyysi. Siinä on 150 kukkaa, jotka on kuvattu 4 muuttujalla (terälehtien ja lehtipuiden pituus ja leveys) ja ryhmitelty kolmeen luokkaan (Setosa, Versicolor ja Virginica).
Tavoitteena on tuottaa tekijäsuunnitelma (3 luokkaa ⇒ 2 akselia), jonka avulla nämä kategoriat voidaan erottaa mahdollisimman hyvin ja sitten selittää niiden asemat.
Factorial-akselitLaskelma tuottaa seuraavat tulokset.
Akseli | Val. puhdas | Osuus | Canonical R | Wilks | KHI-2 | DDL | p-arvo |
---|---|---|---|---|---|---|---|
1 | 32,272 | 0,991 | 0,985 | 0,024 | 545,58 | 8 | 0,0 |
2 | 0,277 | 1.0 | 0,466 | 0,783 | 35.6 | 3 | 0,0 |
Nämä kaksi akselia ovat maailmanlaajuisesti merkittäviä. Itse asiassa kahden akselin mitätöinnin Wilks-lambda on yhtä suuri kuin 0,023525 ( tässä). Bartlettin KHI-2 on yhtä suuri kuin 545,57, vapausaste on (2 x (4-3 + 2 + 1)) = 8, se on erittäin merkittävä ( hyvin pieni p-arvo ).
Huomaa kuitenkin, että ensimmäinen akseli heijastaa 99,1% selitetystä varianssista. Voimme perustellusti kysyä, onko toinen akseli merkityksellinen ryhmien syrjinnän kannalta. Riittää, että testataan viimeisen akselin ( ) virheellisyys . Lambda on korkeampi (0,78), mikä johtaa pienempään KHI-2: een (35,64) (1 x (4-3 + 1 + 1)) = 3 vapausasteessa, se on kuitenkin merkittävä, jos asetamme itsellemme luottamuksen 5 prosentin taso.
Tämän tuloksen perusteella meidän olisi pidettävä kaksi akselia. Näemme alla, että tämä tulos olisi asetettava perspektiiviin.
Graafinen esitysProjisoimalla pisteet faktorialtaiseen tasoon saadaan seuraava sijoittelu.
Erotamme selvästi kolme kukkaluokkaa. Huomaa myös, että ensimmäinen akseli mahdollistaa jo niiden eristämisen sopivasti. Toisella akselilla, vaikka ryhmien painopisteet näyttävät erillisiltä, erottelu ei ole niin selvää.
Tästä kaaviosta löydämme selvästi sen, mitä aistimme selitetyn varianssisuhteen kanssa. Ensimmäinen akseli on suurelta osin riittävä ryhmien erottamiseksi toisistaan. Vaikka toinen akseli on tilastollisesti merkitsevä, se ei tarjoa todellista lisätietoa.
Hyvin usein visuaaliset tekniikat tarjoavat erittäin merkityksellisen vastapisteen raakalukuisille tuloksille.
Uusien henkilöiden projektioLisähavaintojen heijastamiseksi tekijätasolle ohjelmisto tarjoaa erottelevien funktioiden yhtälöt. Riittää, kun niitä sovelletaan luokiteltavan yksilön kuvaukseen, jotta saat koordinaatit uudesta viitekehyksestä.
IRIS-esimerkissä saadaan seuraavat kertoimet.
Muuttujat | Akseli 1 | Akseli 2 |
---|---|---|
Sepän pituus | -0,819 | -0,033 |
Kalvon leveys | -1,548 | -2,155 |
Terälehden pituus | 2,185 | 0,930 |
Terälehden leveys | 2.854 | -2,806 |
Jatkuva | -2,119 | 6,640 |
Viimeisenä, eikä vähäisimpänä, meidän on ymmärrettävä ryhmien suhteellinen sijoittelu, toisin sanoen selitettävä alkumuuttujien avulla luokkien jäsenyys.
Tätä varten, kuten tekijäkohtaiset tekniikat, kuten pääkomponenttianalyysi (PCA) - erotuskerroinanalyysi voidaan nähdä PCA: n erityistapauksena - ohjelmisto tarjoaa korrelaatiomatriisin. Toisin kuin PCA, voidaan tuottaa kolmenlaisia korrelaatioita: yleinen korrelaatio akselien ja alkumuuttujien välillä; ryhmän sisäinen korrelaatio, laskettuna ryhmien sisällä; luokkien välinen korrelaatio laskettuna niiden taajuuksilla painotettujen ryhmien painopisteistä.
IRIS-esimerkissä, jos pidämme kiinni ensimmäisestä akselista, saamme seuraavat korrelaatiot.
Muuttujat | Kaikki yhteensä | Ryhmien sisäinen | Ryhmien välinen |
---|---|---|---|
Syyskuun pituus | 0,792 | 0,222 | 0,992 |
Syysleveys | -0,523 | -0,116 | -0,822 |
Lemmikin pituus | 0,985 | 0,705 | 1000 |
Lemmikin leveys | 0,973 | 0,632 | 0,994 |
Luokkien välinen korrelaatio, joka heijastaa ryhmien sijoittumista akseleille, osoittaa tässä, että Virginicalla on melko pitkät verhosivut, tärkeiden terälehtien pituudet ja leveydet. Setosilla on toisaalta vähentynyt verhon pituus, terälehtien pituus ja leveys. Versicolorsilla on väliasento.
Verotus on päinvastainen verhojen leveyden suhteen.