Osittainen pienimmän neliösumman regressio

Luonto	Tilastollinen menetelmä ( d )
Keksijä	Herman Wold

Osittainen pienimmän neliösumman regressio keksittiin vuonna 1983 Svante Wold ja isä Herman Wold ; englanninkielistä lyhennettä PLS ( " Partial Least Squares regression " ja / tai " Projection to Latent Structure " ) käytetään usein . PLS regressio maksimoi varianssi ennustajia (X i ) = X ja maksimoi korrelaatio X ja selittävänä muuttujana Y. Tämä algoritmi lainaa sen lähestymistapaa sekä pääkomponenttianalyysi (PCA) ja regressio . Tarkemmin sanottuna PLS-regressio etsii komponentteja, joita kutsutaan piileviksi muuttujiksi , jotka liittyvät X: ään ja Y: hen, ja jotka ilmaisevat Y: n regressiota näillä muuttujilla ja lopuksi Y: n regressiota X: llä.

Historiallinen

Vuonna 1966 Herman Wold ehdotti pääkomponenttianalyysiksi algoritmia, jonka nimi oli ensin NILES ( "Ei- lineaarinen arviointi iteratiivisilla pienimmillä neliöillä " ), sitten NIPALS ( "Ei- lineaarinen estimointi Iterative PArtialin vähiten neliöillä " ).

Vuonna 1975 hän esitteli PLS-lähestymistavan analysoidakseen J-muuttujalohkoina ilmaistuja tietoja samoista henkilöistä.

Vuonna 1983 Svante Wold (Herman Woldin poika) ja Harald Martens yhdistivät NIPALS: n ja PLS-lähestymistavan mukauttamaan ne regressioon siinä tapauksessa, että muuttujien määrä on paljon suurempi kuin havaintojen määrä (ja jos havaitaan vahva monikollinaarisuus) .

Vuonna 1989 Svante Wold, Nouna Kettaneh-Wold ja Bert Skagerberg esittivät ensin epälineaarisen PLS-regressiota.

Vuonna 1990 M. Stone ja RJ Brooks ehdottivat parametrimenetelmää, joka mahdollisti PLS-menetelmän käytön monilinjaiseen regressioon , PLS: ään ja pääkomponenttiregressioon.

Lineaarinen PLS-regressio

Malli

PLS-lähestymistavan mallia sovelletaan jatkuvien muuttujien lohkoihin, joita kutsutaan manifestimuuttujiksi, kukin näistä lohkoista on havaintoja samoille yksilöille. Tässä mallissa uskotaan, että jokainen muuttujalohko voidaan tiivistää piilevällä muuttujalla. Manifesti-muuttujat voivat luoda piileviä muuttujia, niitä kutsutaan sitten muodostaviksi manifest-muuttujiksi tai ne voidaan luoda piilevien muuttujien avulla, jolloin niitä kutsutaan heijastaviksi manifest-muuttujiksi. Niin sanotut endogeeniset latentit muuttujat selitetään muilla piilevillä muuttujilla, selittäviä latentteja muuttujia kutsutaan eksogeenisiksi.

Kuten lineaariset regressiot, myös PLS-regressio olettaa mallin (1)

{\ displaystyle \ mathrm {Y} = \ mathrm {X} \ mathrm {B} + \ varepsilon}

Etsimme kahta matriisisarjaa T ja U " pisteistä " , P ja Q " kuormituksista " , kuten

{\ displaystyle {\ begin {tasattu} \ mathrm {X} & = \ mathrm {T} \ mathrm {P} '+ \ mathrm {E} \\\ mathrm {Y} & = \ mathrm {U} \ mathrm { Q} '+ \ mathrm {F} \\\ mathrm {T} & = \ mathrm {X} \ mathrm {W} ^ {*} {\ text {,}} \ end {tasattu}}}

Toisaalta X: n kertoimet ovat hyviä ennustajia Y: lle, mikä on kirjoitettu (4)

{\ displaystyle {\ begin {tasattu} \ mathrm {Y} & = \ mathrm {T} \ mathrm {Q} '+ \ mathrm {G} {\ text {,}} \ end {tasattu}}}

tai

X on ennustajien n × m- matriisi ,
Y on vastemuuttujien n × p- matriisi ,
T ja U ovat n × l matriiseja mitoista, komponenteista tai tekijöistä ,
P ja Q ovat varausten m × l- ja p × l- matriisit ,
ja matriisit E ja F ovat virhetermejä, joiden oletetaan olevan normaalia iid.

S. Wold et ai. selitä täten PLS-regression eri matriisit:

Dimensiomatriisit T kerrottuna varausmatriiseilla P 'ovat hyvä yhteenveto X: stä varmistaen, että jäännöstermin E ovat heikot. Samoin U ja Q 'ovat hyviä yhteenvetoja Y: stä, minimoimalla F: n. X: n kertoimet ovat myös hyviä Y: n ennustajia (katso yht. (4) yllä).

Jäännökset G ilmaisevat havainnon ja mallin välisen eron. Löydämme monivaiheisen regressiomallin (1)

{\ displaystyle {\ begin {tasattu} \ mathrm {Y} & = \ mathrm {X} \ mathrm {W} ^ {*} \ mathrm {Q} '+ \ mathrm {F} \\ {\ text {where} } \ mathrm {B} & = \ mathrm {W} ^ {*} \ mathrm {Q} '{\ text {,}} \ end {kohdistettu}}}

Algoritmi

PLS-algoritmi, joka on saanut inspiraationsa PLS-lähestymistavasta ja NIPALSista, on iteratiivinen. Jokainen iteroinnin vaihe tuottaa komponentin.

Klassinen monimuuttujainen PLS-regressio (PLS2) -algoritmi on määritelty alla:

Joo

{\ displaystyle a \ leqslant \ mathrm {rang} (\ mathrm {X})}

Vaihe1 - ,

{\ displaystyle \ mathrm {X} _ {0} \ longleftarrow \ mathrm {X}}

{\ displaystyle \ mathrm {Y} _ {0} \ longleftarrow \ mathrm {Y}}

2. askel -

{\ displaystyle {\ text {for}} h = 1,2, \ pistettä, a}

Vaihe 2.1 -

{\ displaystyle u_ {h} \ longleftarrow \ mathrm {Y} _ {h-1} [, 1]}

Vaihe 2.2 - toista kunnes

{\ displaystyle w_ {h}}

Vaihe 2.2.1 -

{\ displaystyle w_ {h} \ longleftarrow \ mathrm {X} '_ {h-1} u_ {h} / u' _ {h} u_ {h}}

Vaihe 2.2.2 - normalisoi arvoksi 1

{\ displaystyle w_ {h}}

Vaihe 2.2.3 -

{\ displaystyle t_ {h} \ longleftarrow \ mathrm {X} _ {h-1} w_ {h} / w '_ {h} w_ {h}}

Vaihe2.2.4 -

{\ displaystyle c_ {h} \ longleftarrow \ mathrm {Y} '_ {h-1} t_ {h} / t' _ {h} t_ {h}}

Vaihe2.2.5 -

{\ displaystyle u_ {h} \ longleftarrow \ mathrm {Y} _ {h-1} c_ {h} / c '_ {h} c_ {h}}

Vaihe 2.3 -

{\ displaystyle p_ {h} \ longleftarrow \ mathrm {X} '_ {h-1} t_ {h} / t' _ {h} t_ {h}}

Vaihe 2.4 -

{\ displaystyle \ mathrm {X} _ {h} \ longleftarrow \ mathrm {X} _ {h-1} -t_ {h} p '_ {h}}

Vaihe 2.5 -

{\ displaystyle \ mathrm {Y} _ {h} \ longleftarrow \ mathrm {Y} _ {h-1} -t_ {h} c '_ {h}}

Laadun arvio on arvioitu rajat validointi, tai käyttämällä R 2 tai Q 2 Stone-Geisser.

Tulkinta tapahtuu samalla tavalla kuin pääkomponenttianalyysissä, käyttäen graafeja, jotka esittävät havaintoja piilevien muuttujien akseleilla. Parametreilla t ja u on yhtäläisyyksiä / eroja esineiden (yksilöiden) välillä. Silti S. Woldin ym. Mukaan painot w ja c antavat tietoa Y: n ja X: n välisestä korrelaatiosta. Y: n jäännöksiä käytetään arvioimaan sopivuus malliin, X: n jäännöksiä käytetään poikkeavien havaitsemiseen.

Geometrisesti PLS-regressio on projektio X-avaruuden hypertasolle siten, että tämä taso on hyvä arvio X: n pistepilvestä ja jonka projektioiden koordinaatit ( p ) ovat hyviä Y: n ennusteita.

Epälineaarinen PLS-regressio

On ainakin kaksi tapaa ottaa käyttöön epälineaarisuuden PLS lähestymistapa: ensimmäinen on epälineaarinen muunnos havainto datan sitten suorittaa PLS-lineaarisen regression nämä muunnetun datan, toinen on olettaa, että piilomuuttujiksi t ja u liittyvät epälineaaristen suhteiden avulla.

Ensimmäisessä luokassa ovat menetelmät, kuten: Anders Berglundin ja Svante Woldin INLR ( " implisiittinen epälineaarinen piilevä muuttujan regressio " ) lisää X-muuttujien neliöt ennustemuuttujiin .

Toisessa voimme luetella:

Toissijainen PLS-menetelmä, jonka ehdottivat S. Wold et ai. vuonna 1989, joka koostuu muuttujien t ja u välisen lineaarisen suhteen korvaamisesta toisen asteen polynomisuhteella.
IE Frank paljastaa vuonna 1990 NLPLS-mallin ( " Lineaarinen PLS " ), jossa suhde samojen sisäisten muuttujien välillä kuin edellä, ilmaistaan tasoitustoiminnoilla.
Silti S. Wold vuonna 1992 korvaa vuoden 1989 polynomisuhteen SPLPLS-nimisessä mallissa spline-funktioiden kautta tapahtuvalla suhteella.
GIFI - PLS: ssä korvataan muuttuja X muuttujien sarjalla, joka koostuu X: stä ja X: n arvoluokista, ja sitten sovellamme PLS-regressiota näihin uusiin muuttujiin.

Huomautuksia ja viitteitä

Huomautuksia

katso kuva 01 esimerkki rakennemallista PLS-lähestymistavassa.

Viitteet

Erikoistuneet kirjat

Tufféry 2010 , s. 396
Tenenhaus 1998 , s. 76
Tenenhaus 1998 , s. 61
Tenenhaus 1998 , s. 233
Tenenhaus 1998 , s. 243
Tenenhaus 1998 , s. 128
Tenenhaus 1998 , s. 237 ja sitä seuraavat.

Internetissä julkaistut artikkelit

[PDF] Séverine Vancolen, " Regressio PLS " ,2004(katsottu 17. joulukuuta 2011 )
[PDF] (EN) Roman Rosipal, ” ’ Epälineaarinen osittainen pienimmän neliösumman: Katsaus ’ ” (näytetty 31 joulukuu 2011 )
[PDF] Michel Tenenhaus, " PLS-lähestymistapa " ,1999(katsottu 16. joulukuuta 2011 )
[PDF] (en) Svante Wold, Michael Sjöström, Lennart Eriksson, " " PLS-regressio: kemometrian perustyökalu " " ,2001(katsottu 31. joulukuuta 2011 )
[PDF] Emmanuel Jakobowicz, Addinsoft, " Rakenteellisten yhtälöiden mallit piilevillä muuttujilla " ,2009(katsottu 17. joulukuuta 2011 )
[PDF] (in) Herve Abdi, " " Partial Least Squares (PLS) Regression " ," (käytetty 30. joulukuuta 2011 )
[PDF] (en) Mirtille Vivien, " Lineaariset ja epälineaariset PLS-lähestymistavat moniryhmien mallintamiseen: teoria ja sovellukset " ,2002(katsottu 2. tammikuuta 2012 )
Marlene Mörtsell, Mårten Gulliksson, ” ’ yleiskatsaus joitakin ei-lineaarisia tekniikoita Chemometrics ’ ” (näytetty päivänä tammikuuta 3, 2012 )

Bibliografia

Michel Tenenhaus , PLS-regressio: teoria ja käytäntö , Pariisi, Technip-painokset,1998, 254 Sivumäärä ( ISBN 978-2-7108-0735-3 , lue verkossa )
Stéphane Tufféry , tiedonlouhinta ja päätöksentekotilastot: tiedustelutieto , Pariisi, Technip-julkaisut,2010, 705 Sivumäärä ( ISBN 978-2-7108-0946-3 , lue verkossa )