Alaluokka | Matematiikka , muodollinen tiede |
---|---|
Osa | Matematiikka , taloustiede |
Harjoittanut | Tilastotieteilijä |
Ala | Kuvailevia tilastoja |
Esineet |
Tietojen todennäköisyyslaki |
Historia | Tilastojen historia |
Tilastollinen on tieteenala, joka tutkii ilmiöitä keräämällä tietoja , käsittely, analyysi, tulosten tulkinta ja niiden esittäminen tehdä tietojen ymmärrettävissä kaikki. Se on samalla sovelletun matematiikan haara, menetelmä ja joukko tekniikoita .
Huomaa, että tilastoja kutsutaan joskus "tilastoiksi" (isoilla kirjaimilla), mikä mahdollistaa sen matemaattisten sovellusten erottamisen tilastoilla (pienillä kirjaimilla). Monikkomuotoa käytetään usein myös sen nimeämiseen: "tilastot", tämä antaa mahdollisuuden osoittaa tämän tieteen monimuotoisuuden .
Tilastot ovat matematiikan alue ja enemmän, se on osa sitä, mitä me nyt kutsumme datatieteeksi ( englanniksi : Data Science ). Analyysissä käytetään yleisempiä matemaattisia lakeja (joukot, ryhmät, osallisuus, poissulkeminen). Siinä on sekä teoreettinen komponentti että sovellettu komponentti. Teoreettinen osa perustuu todennäköisyysteoriaan ja muodostaa jälkimmäisen kanssa satunnaisten ilmiöiden analyysin. Sovellettua tilastoa käytetään melkein kaikilla ihmisen toiminnan aloilla: tekniikassa , johtamisessa , taloustieteessä , biologiassa , tietojenkäsittelytieteessä , fysiikassa ( esimerkiksi kvanttifysiikan perusteet). Tilastot käyttävät tietojen keräämistä koskevia sääntöjä ja menetelmiä, jotta ne voidaan tulkita oikein, usein osana päätöksenteon tukea. Tilastotieteilijä ammattia on kehittää tilastollisia välineitä, yksityisen tai julkisen sektorin, ja niiden käyttö on yleensä alalla asiantuntemusta.
Vaikka nimi tilastoissa on suhteellisen uusi - yleensä johtuvan alkuperä nimen XVIII nnen vuosisadan , The German Staatskunde - tämä toiminta näyttää olevan peräisin syntymän ensimmäinen sosiaalisiin rakenteisiin. Ensimmäiset löydetyt kirjalliset tekstit ovat karjalaskelmat, tiedot niiden kulusta ja erilaiset sopimukset. Juoni oli hyvin väestönlaskentojen Kiinassa tai Egyptissä, XVIII th -luvulla eaa. AD Tämä tiedonkeruujärjestelmä jatkuu XVII th luvulla . In Europe , rooli tietojen kerääjä usein hallussa kauppias killat , sitten valtion luottamusmiehet.
Vasta XVIII nnen vuosisadan että näkee projisoidun roolin tilastojen rakentamisen tauluissa kuolleisuutta . Antoine Deparcieux kirjoitti 1746 essee todennäköisyyksien ihmisen elinikä . Ensinnäkin niitä käyttävät henkivakuutusyhtiöt, jotka sitten luodaan.
Tilastot tukevat myös tulevaa tai takautuvaa historiaa, erityisesti väestörakennetta . Niinpä vuonna 1842, Baron de Reiffenberg esiteltiin Akatemian hänen retrospektiivinen laskelmat väestön keskuudessa Gallian kansojen lukujen mukaan vasemmalle Julius Caesar hänen kirjoitusta Gallian sota ( De bello Gallico , v.).
Matemaattiset tilastot perustuivat ensimmäiseen todennäköisyyksiä koskevaan työhön , jonka ovat kehittäneet Fermat ja Pascal . Todennäköisesti Thomas Bayesissa havaittiin päättelevien tilastojen alkion syntyminen. Condorcet ja Laplace puhuivat edelleen todennäköisyydestä , kun taas tänään puhumme taajuudesta . Mutta Adolphe Queteletille olemme velkaa ajatuksen, että tilastot ovat todennäköisyyksiin perustuva tiede .
XIX th vuosisadan näkee tämän toiminnan noutamaan kukoistaa. Tietojen keräämistä ja tulkintaa koskevat tarkat säännöt . Ensimmäinen teollinen käyttö tilastojen tapahtui Yhdysvaltain Census of 1890 , joka toteutti reikäkorttikoneelleen keksi tilastotieteilijä Herman Hollerith . Hän oli jättänyt patenttihakemuksen kanssa US patentin toimistoon .
Vuonna XX : nnen vuosisadan Nämä teolliset sovellukset kasvoi, ensin Yhdysvalloissa , jotka olivat ennen hallintotieteisiin , ja sitten vasta ensimmäisen maailmansodan vuonna Euroopassa . Natsi järjestelmä käytetty tilastollisia menetelmiä 1934 varten asevarustelua . Vuonna Ranskassa , olimme vähemmän tietoisia näistä sovelluksista.
Teollisuuden tilastosovellus Ranskassa kehittyi luomalla Insee , joka korvasi René Carmillen perustaman kansallisen tilastopalvelun .
Kynnyksellä tietojen käsittelyä , on 1940 (vuonna Yhdysvalloissa ), ja sitten Euroopassa (vuonna 1960 ), oli mahdollista käsitellä suurempi määrä dataa , mutta ennen kaikkea ylittämään niiden välillä tietojen sarja erityyppisiä. Tämä on niin kutsutun moniulotteisen analyysin kehitys . Vuosisadan aikana useat ajatusvirrat törmäävät yhteen:
Aloitetaan täsmentämällä, että tilastojen määritelmän antaminen ei ole helppoa: kuten edellisessä osassa selitettiin, tilastojen määritelmät kehittyvät aikakauden tai sen käytön mukaan. Vuonna 1935 tilastotieteilijä Walter F. Willcox laski 100-120 erilaista määritelmää.
”Niistä aiheista, joista tilastotieteilijät eivät ole samaa mieltä, on heidän tieteensa määritelmä. "
Annetaan ensin klassisin määritelmä, joka on käytössä ainakin vuodesta 1982 lähtien: "Tilastot ovat joukko menetelmiä, joiden tarkoituksena on kerätä, käsitellä ja tulkita yksilöiden tai yksiköiden ryhmään liittyviä havaintotietoja. " Tämän määritelmän mukaan tilastotiedot ovat itsenäisiä tieteellisiä tietoja, kuten fysiikka on kohti ainetta ja biologia kohti elämää. Mutta koska se perustuu todennäköisyysteoriaan , koska se on itse satunnaisuuden tiede (lisätietoja on todennäköisyyden teorian ja tilastojen välisessä yhteydessä ), se näyttää usein, erityisesti akateemisesta näkökulmasta, soveltavan matematiikan haara. Nykyään se on osa poikkitieteellisempää tieteenalaa, jota anglosaksit kutsuvat "tieteeksi" ja jossa lisäksi tietotekniikalla on tärkeä paikka. Tilastojen eri näkökohdat on ryhmitelty eri aloille tai käsitteisiin: kuvailevat tilastot , nykyään yleisemmin tunnustelevat tilastot , tilastopäätelmät , matemaattiset tilastot , data-analyysit , tilastollinen oppiminen jne.
John Tukey väittää, että tilastoihin on kaksi lähestymistapaa, joiden välillä jatkuvasti kamppailutaan: tilastojen etsivä ja tilastollinen vahvistava ( etsivä ja vahvistava tilasto ):
Vuonna 1982 tilastotieteilijä Pierre Dagnelie ehdotti kolmea tilastojen pääsuuntausta:
Käytännössä tilastollisia menetelmiä ja työkaluja käytetään esimerkiksi:
Tilastojen tarkoituksena on poimia olennaisia tietoja luettelosta numeroista, joita on vaikea tulkita yksinkertaisella lukemisella. Olosuhteista riippuen käytetään kahta päämenetelmää. Mikään ei estä niitä käyttämästä rinnakkain konkreettisessa ongelmassa, mutta emme saa unohtaa, että ne ratkaisevat täysin erilaisen luonteen ongelmia. Klassisen terminologian mukaan nämä ovat kuvaavia tilastoja ja matemaattisia tilastoja . Nykyään näyttää siltä, että data-analyysin ja pääteltävien tilastojen kaltaiset ilmaisut ovat suositeltavia, mikä on perusteltua ensimmäisessä tapauksessa käytettyjen menetelmien edistymisellä.
Harkitse esimerkiksi kokeen kokonaispisteitä. Voi olla mielenkiintoista johtaa siitä keskeinen arvo, joka antaa synteettisen kuvan opiskelijoiden tasosta. Tätä voidaan täydentää dispersioarvolla, joka mittaa tietyllä tavalla ryhmän homogeenisuutta. Jos haluamme tarkempaa tietoa tästä viimeisestä kohdasta, voimme rakentaa histogrammin tai tarkastella desilejä hieman eri näkökulmasta . Nämä käsitteet voivat olla kiinnostavia vertailussa aikaisempina vuosina tai muualla tehtyjen vastaavien kokeiden kanssa. Nämä ovat tietojen analysoinnin perustavanlaatuisimmat ongelmat, jotka liittyvät rajalliseen populaatioon . Moniulotteisten tilastojen ongelmat edellyttävät lineaarisen algebran käyttöä. Riippumatta ongelman luonteesta, perustason vai ei, kyse on tunnettujen tietojen tilastollisista vähennyksistä , joissa todennäköisyyksien käyttöönotto tuskin parantaisi saatuja tietoja. On järkevää ryhmitellä nämä eri käsitteet:
Radikaali muutos tapahtuu, kun tietoja ei enää pidetä täydellisenä salauksen purettavana informaationa algebran sääntöjen mukaisesti, vaan osittaisena informaationa suuremmasta väestöstä, jota yleensä pidetään äärettömänä populaationa . Jotta aiheuttaa tieto tuntemattomasta väestöstä on tarpeen ottaa käyttöön käsite todennäköisyyden lain . Tunnetut tiedot tässä tapauksessa olla toteutus on näyte , joukko satunnaismuuttujien oletetaan olevan riippumaton (ks laki todennäköisyys usean muuttujan ). Todennäköisyysteoria sallii sitten muiden toimintojen lisäksi:
Tilastollista tutkimusta edeltää aina vaihe, jossa määritetään tutkittavat ominaisuudet.
Seuraava askel on valita tutkittava väestö. Sitten syntyy näytteenoton ongelma: näytteen otettavan populaation valinta (laajassa merkityksessä: tämä voi olla mielipidekysely kysymällä ihmisiä tai kivien kerääminen maaperän luonteen määrittämiseksi. Geologia), väestöstä ja sen edustavuudesta.
Olipa kyseessä koko (väestönlaskenta) tai osittainen (tutkimus) keruu, protokollat on otettava käyttöön tahattomien tai toistuvien mittausvirheiden välttämiseksi.
Tietojen esikäsittely on äärimmäisen tärkeää, todellakin, lähtötietojen muuntaminen (esimerkiksi siirto logaritmiin) voi huomattavasti helpottaa seuraavaa tilastollista käsittelyä.
Tilastollisen tutkimuksen tulos on sarja kvantitatiivisia tietoja (koot, palkat) tai kvalitatiivisia tietoja (puhutut kielet, ensisijaiset tuotemerkit). Jotta niitä voidaan käyttää, on tehtävä luokitus ja visuaalinen tai digitaalinen yhteenveto. Joskus on tarpeen suorittaa tietojen pakkaus . Tämä on kuvailevien tilastojen tehtävä. Se on erilainen riippuen siitä, keskittyykö tutkimus yhteen vai useampaan muuttujaan.
Yhden muuttujan tutkimusTietojen ryhmittely, numeroiden laskeminen ja kaavioiden rakentaminen mahdollistavat ensimmäisen visuaalisen yhteenvedon tutkitusta tilastollisesta merkistä. Jatkuvan kvantitatiivisen merkin tapauksessa histogrammi on yleisin graafinen esitys.
Tilastollisen merkin numeeriset arvot jakautuvat , on tarpeen määritellä niiden sijainnit. Tilastoissa olemme yleensä läsnä suuren määrän arvoja. Kuitenkin, jos kaikki nämä arvot muodostavat tiedon, ei ole helppoa käsitellä useita satoja tai jopa tuhansia tietoja eikä tehdä niistä johtopäätöksiä. Siksi on tarpeen laskea muutama arvo, jonka avulla voidaan analysoida tietoja: tämä on tilastollisten vähennysten tehtävä. Ne voivat olla erittäin ytimekkäitä, pienennetty lukumääriksi: näin on keskiarvoilla ja sirontarvoilla. Jotkut niistä (kuten varianssi ) on kehitetty tietojen teoreettisemman käytön mahdollistamiseksi (katso tilastollinen päättely ).
Voimme myös yrittää verrata kahta populaatiota. Sitten olemme erityisen kiinnostuneita heidän sijaintikriteereistään, dispersiostaan, laatikoistaan tai varianssianalyyseistä .
Useiden muuttujien tutkimusTietokoneresurssit mahdollistavat nyt useiden muuttujien tutkimisen samanaikaisesti. Kahden muuttujan tapaus synnyttää pistepilven, mahdollisen korrelaatiotutkimuksen näiden kahden ilmiön välillä tai lineaarisen regressiotutkimuksen .
Tutkimuksia voidaan kuitenkin kohdata useammalla kuin kahdella muuttujalla: se on moniulotteinen analyysi, josta löytyy analyysi pääkomponenteista , analyysi itsenäisistä komponenteista , moninkertainen lineaarinen regressio ja tietojen etsintä (kutsutaan myös nimellä " tiedonhaku "). tai ” tiedonlouhinta ”). Nykyään tiedonlouhinta perustuu muun muassa tilastoihin muuttujien välisten suhteiden löytämiseksi hyvin suurista tietokannoista. Teknologian kehitys (käytettävissä olevien antureiden, tallennuslaitteiden ja laskentatehojen taajuuden kasvu) antaa tietojen etsimiselle todellista kiinnostusta.
Tilastollisen päättelyn tarkoituksena on tuoda esiin muuttujien joukon ominaisuudet, jotka tunnetaan vain muutaman sen toteutuksen kautta (jotka muodostavat otoksen tiedoista).
Se perustuu matemaattisten tilastojen tuloksiin , joissa sovelletaan tarkkoja todennäköisyys- ja informaatioteoriaa koskevia matemaattisia laskelmia tilanteisiin, joissa havaitaan vain muutama tutkittavan ilmiön oivallus (kokeilu).
Ilman matemaattisia tilastoja tietojen laskeminen (esimerkiksi keskiarvo) on vain indikaattori . Matemaattiset tilastot antavat sille estimaattorin tilan , jonka puolueellisuutta , epävarmuutta ja muita tilastollisia ominaisuuksia hallitaan . Haluamme yleensä, että estimaattori on puolueeton, lähentyvä (tai johdonmukainen) ja tehokas.
Voimme myös tehdä oletuksia yleisen ilmiön synnyttävästä laista, esimerkiksi "noudattaako Ranskassa 10-vuotiaiden lasten koko Gaussin lakia ?" ". Näytteen tutkimus vahvistaa sitten tämän hypoteesin tai ei: tätä kutsutaan hypoteesien testiksi. Hypoteesitestejä voidaan määrittää todennäköisyys, että muuttujat (tunnetaan vain näytteestä) täyttävät tietylle ominaisuudelle.
Lopuksi voimme yrittää mallintaa ilmiötä jälkikäteen . Tilastollinen mallinnus on erotettava fyysisestä mallinnuksesta. Toisessa tapauksessa, fyysikkojen (tämä pätee myös kemistit, biologit, tai mikä tahansa muu tiedemies), pyrkivät rakentaa selittävä malli ilmiöstä, joka tukee hieman yleisempi teoria kuvaava miten ilmiöitä tapahtuu. Hyödyntämällä syy-yhteyden periaate . Tilastollisen mallinnuksen tapauksessa malli rakennetaan käytettävissä olevista tiedoista ilman etukäteen kyseisiä mekanismeja. Tämän tyyppistä mallinnusta kutsutaan myös empiiriseksi mallinnukseksi . Tilastollisen mallinnuksen loppuun saattaminen fyysisillä yhtälöillä (usein integroituna tietojen esikäsittelyyn ) on aina positiivista.
Malli on ennen kaikkea keino, jotka liittyvät muuttujien selitetään ja selittävät muuttujat , jonka toiminnallinen suhde:
Tilastomallit voidaan ryhmitellä suuriin perheisiin (funktion muodosta riippuen ):
Bayesilaisia malleja (nimetty Bayesin mukaan ) voidaan käyttää kaikissa kolmessa luokassa.
Tämä matematiikan haara, joka on läheisesti sidoksissa todennäköisyyksiin, on välttämätön pääteltävissä olevissa tilastoissa kehitettyjen hypoteesien tai mallien vahvistamiseksi. Todennäköisyyksien matemaattinen teoria muodostaa satunnaiset ilmiöt. Matemaattiset tilastot on omistettu satunnaisten ilmiöiden tutkimiseen, jotka tunnemme joidenkin sen saavutusten kautta .
Esimerkiksi kuudenpuolisten noppapelien osalta:
Kun sääntö on vahvistettu, sitä voidaan käyttää päätelmissä .
Tilastoja käytetään useimmissa yhteiskuntatieteissä . Ne esittävät yhteisen metodologian, jossa on kuitenkin tiettyjä erityispiirteitä tutkimuskohteen monimutkaisuudesta riippuen.
SosiologiassaKvantitatiiviset sosiologit käyttävät hyvin usein tietojen geometristä analyysiä ( tekijäanalyysi , nouseva hierarkkinen luokittelu ). Nämä menetelmät mahdollistavat synteettisten profiilien laatimisen ottaen huomioon joukko kvantitatiivisia (tulot, ikä jne.) Ja / tai kvalitatiivisia muuttujia (sukupuoli, sosio-ammatillinen luokka jne.). On esimerkiksi mahdollista määrittää sosiostyylit .