Data mining , joka tunnetaan myös ilmaisu data mining , data mining , data mining , data mining , tai uuttamalla tiedon tiedoista , koskee uuttamalla tietää tai '' tietämys suuria määriä dataa , automaattisen tai puoli- automaattiset menetelmät.
Siinä ehdotetaan useiden tieteenalojen, kuten tilastotieteen , tekoälyn tai tietojenkäsittelytieteen , algoritmien käyttöä mallien rakentamiseksi tiedoista , toisin sanoen mielenkiintoisten rakenteiden tai mallien löytämiseksi etukäteen vahvistettujen kriteerien mukaisesti ja poimimista paljon tietoa kuin mahdollista .
Tämän tiedon teollinen tai operatiivinen käyttö ammattimaailmassa antaa mahdollisuuden ratkaista monenlaisia ongelmia asiakassuhteiden hallinnasta ennaltaehkäisevään ylläpitoon, mukaan lukien petosten havaitseminen ja verkkosivustojen optimointi . Se on myös tapa, jolla datajournalismi toimii .
Data mining seuraa muun kärjistymisen liiketoiminnan data mining, business intelligence . Tämän avulla voidaan havaita tosiasia, kuten liikevaihto , ja selittää se liikevaihdon laskiessa tuotekohtaisesti, kun taas tiedonlouhinta antaa mahdollisuuden luokitella tosiasiat ja ennustaa ne tietyssä määrin tai valaista niitä paljastamalla esimerkiksi muuttujat tai parametrit, joiden avulla voidaan ymmärtää, miksi yhden myyntipisteen liikevaihto on suurempi kuin toisen myyntipiste.
Mallien luominen suuresta datamäärästä ei ole uusi ilmiö. Mallin luominen edellyttää tietojen keräämistä. Vuonna Kiinassa me ominaisuus myyttiseen keisari Yao , halu tunnistaa viljelykasvien 2238 eaa. ILMOITUS; in Egyptissä farao Amasis järjestää väestönlaskennan vuonna V : nnen vuosisadan eaa. AD Vasta XVII th luvulla alamme analysoida tietoja etsimään yhteisiä piirteitä. Vuonna 1662 , John Graunt julkaisi kirjansa " Luonnon ja poliittisia havaintojen kun esitykset kuolevaisuuden " , jossa hän analysoi kuolleisuutta Lontoossa ja yrittivät ennustaa ulkonäkö paiserutto. Vuonna 1763 , Thomas Bayes osoittaa, että voimme määrittää, paitsi todennäköisyyksiä havainnoista johtuvat kokeesta, mutta myös parametrit, jotka liittyvät näihin todennäköisyydet. Esitettynä binomijakauman erityistapauksessa , Laplace laajentaa tätä tulosta itsenäisesti , mikä johtaa Bayesin lauseen yleiseen muotoiluun . Legendre julkaisi vuonna 1805 esseen pienimpien neliöiden menetelmästä, mikä mahdollistaa tietojoukon vertaamisen matemaattiseen malliin. Kalliit manuaaliset laskelmat eivät kuitenkaan salli näiden menetelmien käyttöä muutaman yksinkertaisen ja valaisevan tapauksen ulkopuolella.
Vuosina 1919–1925 Ronald Fisher kehitti varianssianalyysin lääketieteellisen tilastollisen päättelyprojektinsa työkaluksi . 1950-luvulla näissä koneissa esiintyi edelleen kalliita tietokoneita ja eränlaskentatekniikoita. Samanaikaisesti syntyy menetelmiä ja tekniikoita, kuten segmentointi , luokittelu (muun muassa dynaamisten pilvien menetelmällä ), tulevien hermoverkkojen ensimmäinen versio, jota kutsutaan Perceptroniksi , ja jotkut itsestään kehittyvät algoritmit, joita kutsutaan myöhemmin geneettisiksi . 1960-luvulla saapuivat päätöksentekopuut ja mobiilikeskuksen menetelmä ; nämä tekniikat antavat tutkijoille mahdollisuuden hyödyntää ja löytää yhä tarkempia malleja. In France , Jean-Paul Benzécri kehitetty korrespondenssianalyysi vuonna 1962 . Olemme kuitenkin edelleen eräkäsittelyn näkökulmasta .
Vuonna 1969 ilmestyi Myron Tribus Rationalin kuvaukset, päätökset ja mallit, jotka yleistävät Bayesin menetelmät automaattisessa laskelmassa ( Dartmouthin professori käyttää melko loogisesti muutama vuosi aiemmin luotua BASIC- kieltä ja sen vuorovaikutteisuutta ). Ranskalainen käännös tuli saataville vuonna 1973 nimellä Rational päätökset epävarmoissa . Tärkeä ajatus teoksesta on maininta Cox-Jaynesin lauseesta, joka osoittaa, että mallin hankinta tapahtuu Bayesin sääntöjen mukaisesti (lukuun ottamatta homomorfismia ) tai johtaa epäjohdonmukaisuuksiin. Toinen on se, että kaikkien havaintoja tyydyttävien todennäköisyysjakaumien joukosta (niiden lukumäärä on ääretön) on valittava se, joka sisältää vähiten mielivaltaa (siksi vähiten lisättyä tietoa ja näin ollen suurinta entropiaa . Todennäköisyyttä pidetään siellä yksinkertainen digitaalinen käännös tietotilasta, ilman taustalla olevaa usein esiintyvää merkitystä.Lopuksi tämä työ popularisoi desibelien todennäköisyyksien merkintää, mikä tekee Bayesin säännöstä additiivisen ja mahdollistaa kvantifioinnin ainutlaatuisella tavalla havainnon tarjoamisesta nyt riippumaton tekee eri arvioiden ennen ennakkotapaus (ks Bayes päättely ).
Mikrotietokoneiden asteittainen saapuminen helpottaa näiden Bayesin menetelmien yleistämistä kustannuksia rasittamatta. Tämä stimuloi tutkimusta ja Bayesin analyysit ovat yleistymässä, varsinkin kun Tribus on osoittanut niiden lähentymisen havaintojen edetessä kohti klassisten tilastojen tuloksia samalla, kun tietämystä on mahdollista tarkentaa ajan mittaan ilman, että tarvitaan samoja hankinta-aikoja (katso myös kokeilusuunnitelma ) .
Tällöin alkaa vapautuminen klassisesta tilastoprotokollasta: hypoteesia ei enää tarvitse asettaa eikä vahvistaa sitä jälkikäteen . Päinvastoin, Bayesin arviot rakentavat itse nämä hypoteesit havaintojen kertyessä.
Ilmaisulla " tiedonlouhinta " oli 1960-luvun alkupuolella pejoratiivinen merkitys, joka ilmaisi statistien halveksuntaa korrelaatiotutkimuksen lähestymistavoista aloittamatta hypoteeseja . Se unohdetaan, ja sitten Rakesh Agrawal käyttää sitä uudelleen 1980-luvulla, kun hän aloitti tutkimuksensa 1 Mt : n tietokannoista . Datan louhinnan käsite ilmestyi Palin ja Jainin mukaan ensimmäisen kerran IJCAI-konferensseissa vuonna 1989 . Gregory Piatetsky-Shapiro etsi uudelle konseptille nimeä 1980-luvun lopulla GTE-laboratorioilta . " Tiedon louhinta " on tekijänoikeuksien alainen, ja hän käytti ilmaisua " Tietämyksen löytäminen tietokannoissa " (KDD).
Sitten, 1990-luvulla, tuli koneoppimistekniikat , kuten SVM: t vuonna 1998 , jotka täydensivät analyytikon työkaluja.
Alussa XXI nnen vuosisadan yritys, kuten Amazon.com käyttää kaikkia näitä välineitä tarjota asiakkailleen tuotteita, jotka saattavat kiinnostaa heitä.
Nykyään tiedonlouhintatekniikoita voidaan käyttää täysin eri aloilla hyvin erityisiin tarkoituksiin. Postimyyntiyritysten yritykset käyttävät tätä tekniikkaa analysoida kuluttajien käyttäytymistä tunnistaa yhtäläisyyksiä käyttäytymisen myöntää kanta-asiakaskortteja , tai perustaa luettelot tuotteista voidaan tarjota ylimääräisiä myyntiin (ristiinmyynnille).
Suoramainonta ( PO ) käytetään etsintään uusia asiakkaita on keskimäärin Vastausprosentti oli 10%. Markkinointiyritykset käyttävät tiedonlouhintaa vähentääkseen uuden asiakkaan hankintakustannuksia sijoittamalla näkymiä kriteerien mukaan, joiden avulla ne voivat lisätä lähetettyjen kyselylomakkeiden vastauksia.
Nämä samat yritykset, mutta myös muut, kuten pankit, matkapuhelinoperaattorit tai vakuutusyhtiöt, pyri tiedon louhinta minimoida poistuma (tai vaihtuvuutta ) asiakkaidensa koska ylläpitokustannukset asiakas on yhtä tärkeä kuin hankkia uusi.
Poliisipalvelut pyrkivät luonnehtimaan rikoksia kaikissa maissa (vastaamaan kysymykseen: "Mikä on" normaali "rikos?") Ja rikollisten käyttäytymiseen (vastaus kysymykseen: "normaali" rikoskäyttäytyminen? ") Estääkseen rikokset ja rajoittaa väestölle aiheutuvia riskejä.
Pisteytys asiakkaiden pankkien on nyt tunnettu, sen avulla voidaan tunnistaa "hyvä" asiakkaita, ilman vaaraa tekijät ( arviointi asiakasriskien ) kenelle rahoituslaitosten, pankit, vakuutusyhtiöt jne voi tarjota hinnoittelua. Mukautettu ja houkuttelevia tuotteita, samalla kun rajoitetaan korvaamattomuuden, maksamatta jättämisen tai jopa menetysten riskiä vakuutustapauksissa.
Hätäkeskukset käyttää tätä tekniikkaa parantaa palvelun laatua ja mahdollistaa asianmukainen vastaus operaattorille asiakastyytyväisyys.
Ihmisen genomin etsinnässä tiedon louhintatekniikoita on käytetty geenien ja niiden toiminnan löytämiseen .
Muita esimerkkejä muilta aloilta voitaisiin löytää, mutta voimme havaita juuri nyt, että kaikki nämä käyttötarkoitukset mahdollistavat monimutkaisen ilmiön (ihmisen käyttäytyminen, geenin ilmentyminen) luonnehtimisen, sen paremman ymmärtämisen, tutkimuksen vähentämiseksi. ilmiöön liittyvät toimintakustannukset tai tähän ilmiöön liittyvien prosessien laadun parantaminen.
Teollisuus on ymmärtänyt tietojensa muodostaman perinnön merkityksen ja pyrkii hyödyntämään sitä hyödyntämällä liiketiedettä ja tiedonlouhintaa. Tämän alan edistyneimmät yritykset ovat palvelualalla . Mukaan kdnuggets.com sivustoon, jakelun Yhdysvalloissa , prosentteina koko Kyselyn, käytön louhia tietoja toimialakohtainen suoritetaan 2010 seuraavasti:
CRM / kulutusanalyysi | Pankki | Terveys, henkilöresurssit |
---|---|---|
Petosten havaitseminen | Rahoittaa | Suoramarkkinointi , varainhankinta |
Televiestintä | Vakuutus | Tiede |
Koulutus | Julkisuus | Verkko |
Lääketieteellinen | Valmistaa | Vähittäiskauppa |
Luottoluokitus | ||
Verkkokauppa | ||
Hakukone | ||
Sosiaaliset verkostot | ||
Hallitus, armeija | ||
Kuten yllä olevasta histogrammista käy ilmi, teollisuus on kiinnostunut aiheesta, etenkin standardien ja yhteentoimivuuden suhteen, mikä helpottaa eri julkaisijoiden tietotekniikkatyökalujen käyttöä. Lisäksi yritykset, koulutus ja tutkimus ovat suuresti vaikuttaneet menetelmien ja mallien kehitykseen ja parantamiseen (esimerkiksi tiukkuuden suhteen). julkaistu artikkeli 2008 , jonka International Journal of Information Technology ja päätöksenteko yhteenveto tutkimuksen, jossa jälkiä ja analysoi tätä kehitystä. Jotkut toimijat ovat siirtyneet tutkimuksesta teollisuuteen.
Yliopistot kuten Konstanzin kaupungissa Saksassa , Dortmundissa vuonna North Carolina , Yhdysvallat , Waikato vuonna Uudessa-Seelannissa , ja Université Lumiere Lyon 2 Ranskassa, ovat tehneet tutkimustyötä löytää uusia algoritmeja ja parantaa vanhimmat . He ovat myös kehittäneet ohjelmiston, jonka avulla opiskelijat, opettajat ja tutkijat voivat edetä tällä alalla, mikä antaa teollisuudelle mahdollisuuden hyötyä heidän edistyksestään.
Toisaalta on luotu monia ammattiryhmien välisiä ryhmiä ja yhdistyksiä pohtimaan ja tukemaan tiedonlouhinnan kehittämistä. Ensimmäinen näistä ammattiryhmien alalla on eturyhmää Association for Computing Machinery koskevan tietämyksen hallinnan ja tiedon louhinta, The SIGKDD . Vuodesta 1989 lähtien se on järjestänyt vuosittaisen kansainvälisen konferenssin ja julkaissut jäsentensä uusia tuloksia, pohdintoja ja kehitystä. Vuodesta 1999 lähtien tämä organisaatio on julkaissut puolivuosittaisen katsauksen otsikolla “ SIGKDD Explorations ” .
Järjestetään myös muita tiedonlouhintaa ja tietojenkäsittelyä koskevia konferensseja, esimerkiksi:
Nämä taloudellisesti vakuuttavat tutkimukset ja tulokset velvoittavat tiedonlouhintaan erikoistuneet tiimit suorittamaan metodologista työtä strukturoiduissa projekteissa.
Hyviä käytäntöjä on tullut ajan myötä parantamaan hankkeiden laatua. Näiden joukossa menetelmät auttavat tiimejä järjestämään projektit prosesseiksi. Yksi käytetyistä menetelmistä ovat Semma menetelmät ja SAS Institute ja CRISP-DM , joka on eniten käytetty menetelmä 2010-luvulla.
CRISP-DM-menetelmä jakaa tiedonlouhintaprosessin kuuteen vaiheeseen, jolloin tekniikka voidaan jäsentää ja ankkuroida teolliseen prosessiin. Enemmän kuin standardoitu teoria, se on prosessi yritystietojen keräämiseksi.
Sinun on ensin ymmärrettävä työ, joka kysyy analyytikolta, virallistettava ongelma, jonka organisaatio pyrkii ratkaisemaan tietojen suhteen, ymmärtämään ongelmat, tuntemaan projektin onnistumisen kriteerit ja laatimaan alustava suunnitelma tämän tavoitteen saavuttamiseksi .
Sitten analyytikko tarvitsee oikeat tiedot. Heti kun projektitiimi tietää mitä tehdä, heidän on etsittävä tietoja, tekstejä ja kaikkea materiaalia, jonka avulla he voivat vastata ongelmaan. Sitten hänen on arvioitava laatu, löydettävä ensimmäiset ilmeiset muodot hypoteesien tekemiseksi piilotetuista malleista.
Projektiryhmän keräämät tiedot ovat heterogeenisiä . Ne on valmisteltava käytettyjen algoritmien mukaisesti poistamalla poikkeamat tai ääriarvot, täydentämällä määrittelemätöntä tietoa, lähimpien K-naapureiden keskiarvolla tai menetelmällä , poistamalla kaksoiskappaleet, muuttamattomat muuttujat ja muut. liian monta puuttuvaa arvoa tai esimerkiksi diskretisoimalla muuttujat, jos käytettävä algoritmi sitä vaatii, kuten esimerkiksi useiden ACM-vastaavuuksien analyysissä , diskriminanttianalyysissä DISQUAL tai Condorcetin menetelmässä .
Kun tiedot ovat valmiita, sinun on tutkittava niitä. Ryhmien mallinnus yhdistää tehtäväluokkia, joita voidaan käyttää yksin tai muiden lisäksi kuvaaviin tai ennakoiviin tarkoituksiin.
Segmentointi on tehtävä löytää ryhmiä ja rakenteiden tietoja, jotka ovat jotenkin samanlaisia, ilman rakenteita tunnetaan a priori tiedoissa. Luokitus on yleistys tehtävä tunnetut rakenteet ja soveltaa niitä uusiin tietoihin.
Regressio yrittää löytää funktio mallinnus jatkuvan datan, toisin sanoen, ei erillisiä, jolla on pienin virhetaso, jotta voidaan ennustaa tulevia arvoja. Yhdistys etsii suhteita kohteita. Esimerkiksi supermarket voi kerätä tietoja asiakkaidensa ostotottumuksista. Yhdistämissääntöjen avulla supermarket voi määrittää, mitkä tuotteet ostetaan usein yhdessä, ja siten käyttää tätä tietoa markkinointitarkoituksiin . Kirjallisuudessa tätä tekniikkaa kutsutaan usein "kotitalouskorin analyysiksi".
Sitten on kyse saavutettujen tulosten arvioinnista kaupan onnistumisen kriteerien mukaisesti ja itse prosessin arvioimisesta aukkojen ja laiminlyötyjen vaiheiden paljastamiseksi. Tämän seurauksena on tehtävä päätös prosessin joko käyttöönotosta tai toistamisesta parantamalla sitä, mikä meni pieleen tai tekemättä.
Sitten tulee toimitusvaihe ja projektin arvioinnin loppu. Ohjaus- ja huoltosuunnitelmat suunnitellaan ja projektiraportin loppu laaditaan. Ennakoivan mallin käyttöönottoon käytetään XML : ään perustuvaa PMML- kieltä . Sitä käytetään kuvaamaan kaikki mallin ominaisuudet ja välittämään se muille PMML-yhteensopiville sovelluksille.
SAS-instituutin keksimä SEMMA- metodologia ( Sample Explore, Modify, Model, Assess for “Sampling, then Explore, Modify, Model, Evaluate”) on keskittynyt tiedonlouhinnan teknisiin toimiin. Vaikka SAS esittelee sen vain loogisena SAS Enterprise -kaivostyökalujen organisaationa , SEMMA: ta voidaan käyttää tiedonlouhintaprosessin järjestämiseen käytetystä ohjelmistosta riippumatta.
Six Sigma (DMAIC)Six Sigma ( DMAIC on lyhenne, joka luonnehtii menetelmää seuraavasti: Määritä, mittaa, analysoi, paranna, hallitse "Määritä, mittaa, analysoi, paranna, hallitse") on jäsennelty, tietoihin suuntautunut menetelmä, jonka tavoitteena on kaikenlaiset poistovirheet, irtisanomiset ja laadunvalvontaongelmat tuotannon, palvelujen tarjoamisen, johtamisen ja muun liiketoiminnan aloilla. Tiedon louhinta on alue, jolla tätä metodologista opasta voidaan soveltaa.
Robert Nisbet, John Elder ja Gary Miner ovat kuvanneet kokeneiden ja kokemattomien tiedonlouhijoiden tavallisimmat karat käsikirjassa Tilastolliset analyysit ja tiedonlouhinta .
Ensimmäinen kysymys on väärä. Mikä johtaa väärään paikkaan katsomiseen. Alkukysymys on esitettävä oikein, jotta vastauksesta olisi hyötyä.
Sitten se tyytyy pieneen määrään tietoa monimutkaisesta ongelmasta. Meillä on oltava tietoa niiden tutkimiseen, ja kaivinkoneen mielenkiintoisia tapauksia on harvinaista havaita, joten meillä on oltava käytössämme paljon tietoa voidaksemme tehdä näytteitä, joilla on oppimisarvoa ja joiden avulla voidaan ennustaa eli vastaamalla esitettyyn kysymykseen otoksen ulkopuolisista tiedoista. Lisäksi, jos tietoja ei ole mukautettu esitettyyn kysymykseen, louhinta on rajallista: esimerkiksi jos tiedot eivät sisällä ennustettavia muuttujia, louhinta rajoittuu kuvaukseen ja analyytikko pystyy vain jakamaan tiedot johdonmukaisiksi osajoukoiksi ( klustereiksi ) tai löytää parhaat ulottuvuudet, jotka kaappaavat tietojen vaihtelevuuden.
Oppimisen mahdollistava näyte on rakennettava huolella eikä näytettä kevyesti. Oppimisen avulla malli voidaan rakentaa yhdestä tai useammasta näytteestä. Tiedonlouhintatyökalun asettaminen, kunnes malli palauttaa 100% haetuista tapauksista, tarkoittaa keskittymistä erityispiirteisiin ja välttämistä välttämättömästä yleistämisestä, mikä mahdollistaa mallin soveltamisen ulkopuoliseen tietoon. On olemassa tekniikoita ylikuormituksen tai yliasennuksen välttämiseksi . Nämä ovat resampling-menetelmiä, kuten bootstrap , jackknife tai cross validation .
Joskus yksittäinen tekniikka (päätöksentekopuu, hermoverkot ...) ei riitä mallin saamiseksi, joka antaa hyviä tuloksia kaikista tiedoista. Yksi ratkaisu, tässä tapauksessa, koostuisi joukosta työkaluja, joita voidaan käyttää yksi toisensa jälkeen ja verrata tuloksia samaan dataan tai yhtenäistää kunkin menetelmän vahvuudet joko oppimalla tai yhdistämällä tuloksia.
On tärkeää asettaa tiedot ja kaivauksen tulokset perspektiiviin kontekstissaan eikä keskittyä tietoihin, muuten voi syntyä tulkintavirheitä sekä ajanhukkaa ja rahaa.
Absorboimalla ennakolta tulokset, jotka näyttävät järjettömiltä verrattuna odotettuihin, voi olla virheitä, koska kenties nämä ratkaisut antavat ratkaisun esitettyyn kysymykseen.
Mallin tuloksia on mahdotonta käyttää ja tulkita sen kehyksen ulkopuolella, johon se on rakennettu. Tulosten tulkinta muihin samankaltaisiin mutta erilaisiin tapauksiin on myös virhelähde, mutta tämä ei ole ainutlaatuista tiedonlouhinnan perusteluille. Lopuksi mataladimensionaalisissa tiloissa, suurdimensionaalisissa tiloissa saatujen tulosten ekstrapolointi voi myös johtaa virheisiin.
Kaksi George Boxin lainausta "Kaikki mallit ovat vääriä, mutta jotkut ovat hyödyllisiä" ja "Tilastotieteilijät ovat kuin taiteilijoita, he rakastuvat malleihinsa", humoristisesti havainnollistavat, että joskus joidenkin tiedonlouhinnan analyytikoiden on uskottava malliinsa ja uskottava että malli, jonka kanssa he työskentelevät, on paras. Mallien käyttäminen ja tulosten jakauman tulkinta on paljon turvallisempaa.
Tiedonlouhintaprojektissa on välttämätöntä tietää, mikä on tärkeää ja mikä ei, mikä vie aikaa ja mikä ei; mikä ei aina ole sama.
Tehtävät | Lataa |
Tärkeys projektissa |
---|---|---|
Tietojen kartoitus, valmistelu ja etsintä | 38% | 3 |
Kehitys - Mallien validointi | 25% | 2 |
Tulosten palauttaminen | 12% | 4 |
Ensimmäisten testien analyysi | 10% | 3 |
Tavoitteiden määrittely | 8% | 1 |
Dokumentaatio - esitykset | 7% | 5 |
Datan louhinnan ydin on mallinnus: kaikki valmistelut suoritetaan mallin mukaan, jonka analyytikko aikoo tuottaa, suoritetut tehtävät validoivat valitun mallin, täydentävät sen ja ottavat sen käyttöön. Vakavin tehtävä mallinnuksessa on määritellä algoritmi (t), joka tuottaa odotetun mallin. Tärkeä kysymys on siis niistä kriteereistä, joiden avulla voidaan valita tämä tai nämä algoritmit.
Ongelman ratkaiseminen tiedonlouhintaprosessilla edellyttää yleensä suuren määrän erilaisten menetelmien ja algoritmien käyttöä, jotka ovat enemmän tai vähemmän helposti ymmärrettäviä ja käytettäviä. Algoritmeja on kaksi pääperhettä: kuvaavat menetelmät ja ennustavat menetelmät.
Kuvaavat menetelmät järjestävät, yksinkertaistavat ja auttavat ymmärtämään suuren tietojoukon taustalla olevia tietoja.
Ne antavat mahdollisuuden työskennellä tietojoukon kanssa , joka on järjestetty muuttujina, joissa mikään yksilöiden selittävistä muuttujista ei ole erityisen tärkeä muihin nähden. Niitä käytetään esimerkiksi yksilöimään homogeeniset ryhmät typologiassa, rakentamaan käyttäytymisstandardeja ja siten poikkeamia näistä standardeista, kuten uusien tai tuntemattomien pankkikorttipetosten havaitseminen tai vakuutus , tietojen pakkaamiseksi tai kuvan pakkaus jne.
EsimerkkejäKäytettävissä olevista tekniikoista voidaan käyttää tilastoista johdettuja tekniikoita. Ne on ryhmitelty termiin faktoriaalianalyysit , tilastolliset menetelmät, jotka mahdollistavat piilotettujen muuttujien tunnistamisen joukossa toimenpiteitä. näitä piilotettuja muuttujia kutsutaan "tekijöiksi". Tehdasanalyyseissä oletamme, että jos tiedot ovat riippuvaisia toisistaan, se johtuu siitä, että ne ovat yhteydessä heille yhteisiin tekijöihin. Tekijöiden etu on siinä, että pieni määrä tekijöitä selittää melkein yhtä hyvin tiedot kuin muuttujien joukko, mikä on hyödyllistä, kun muuttujia on paljon. Tekninen tekijä hajottaa pääasiassa pääkomponenttianalyysin , riippumattoman komponenttianalyysin , vastaavuusanalyysin , moniarvoisen vastaavuusanalyysin ja moniulotteisen skaalauksen .
Idean korjaamiseksi pääkomponenttianalyysi vastaa kvantitatiivisia muuttujia, jotka kuvaavat yksilöitä, tekijöitä ja pääkomponentteja siten, että tiedon menetys on minimaalista. Komponentit on järjestetty kasvavassa järjestyksessä tiedon menetykseen, joista ensimmäiset menettävät vähiten. Komponentit eivät ole korreloineet lineaarisesti toistensa kanssa, ja yksilöt projisoidaan tekijöiden määrittelemille akseleille kunnioittaen niiden välistä etäisyyttä. Yhtäläisyydet ja erot selitetään tekijöillä.
Vastaavuus tekijä analyysi ja MCA vastaavat kvalitatiivisia muuttujia ominaisuuksia kuvaavat yksilöiden, tekijät käyttäen tingenssitaulu , tai Burt pöytä tapauksessa MCA, siten, että tekijät ovat koostuu numeerista muuttujia, jotka parhaiten erottaa arvot alkuperäiset kvalitatiiviset muuttujat, että kaksi yksilöä on lähellä, jos heillä on suunnilleen samat kvalitatiivisten muuttujien arvot, ja että kahden kvalitatiivisen muuttujan arvot ovat lähellä, jos käytännössä samat henkilöt omistavat ne.
Voimme käyttää myös keinotekoisen älykkyyden ja erityisesti koneoppimisen menetelmiä . Valvomaton luokittelu on menetelmäperhe, jonka avulla yksilöt voidaan ryhmitellä luokkiin, joiden ominaispiirre on, että saman luokan yksilöt muistuttavat toisiaan, kun taas kahden eri luokan yksilöt ovat erilaisia. Luokituksen luokkia ei tunneta etukäteen, ne löydetään prosessin avulla. Yleensä luokitusmenetelmillä pyritään tekemään homogeenista dataa, joka ei ole a priori homogeenista, ja siten mahdollistavat jokaisen luokan käsittelyn poikkeamille herkillä algoritmeilla. Tässä näkökulmassa luokitusmenetelmät muodostavat ensimmäisen vaiheen analyysiprosessissa.
Nämä tekoälystä lainatut tekniikat käyttävät kaiken tiedon jakamista mutta myös palautusta . Osiointi on tavoite algoritmien, esimerkiksi menetelmillä, kuten on k-means ( "dynaaminen pilviä" ranskaksi), k-medoids ( k-medoids ), k-tilat ja k-prototyyppejä, joita voimme käyttää etsi outlerit , Kohosen verkot , joita voidaan käyttää myös luokittelussa, EM-algoritmi tai AdaBoost . Hierarkkinen luokitus on erikoistapaus, jolle osiointi grafiikka tuotteet ovat helposti ymmärrettäviä. Nousevat menetelmät alkavat yksilöistä, jotka on koottu luokkiin, kun taas laskevat menetelmät alkavat kokonaisuudesta ja peräkkäisillä jakautumisilla saavutetaan luokkien muodostavat henkilöt. Nousevan luokituksen kaaviota vastapäätä on piirretty, kuinka lähimmät luokat ovat yhteydessä toisiinsa muodostaen ylemmän tason luokkia.
Sumea logiikan päällekkäisyys on matriisin riveillä edustettujen yksilöiden joukon päällekkäisyys, jossa joillakin heistä on nollasta poikkeava todennäköisyys kuulua kahteen eri luokkaan. Tunnetuin tämän tyyppinen algoritmi on FCM ( Fuzzy c-mean ).
Meidän on myös mainittava loogisten vuorovaikutusten käyttöön liittyvien korrelaatioiden ikonografia , geometrinen menetelmä, joka soveltuu hyvin monisuhteisten monimutkaisten verkkojen analysointiin.
Vuonna bioinformatiikka , kaksinkertainen luokittelu tekniikoita käytetään samanaikaisesti ryhmitellä eri luokkiin yksilöiden ja muuttujia, jotka luonnehtivat niitä.
Näiden palautusmenetelmien hyödyllisyyden huomioon ottamiseksi on muistettava, että luokittelu on ongelma, jonka suuren monimutkaisuuden määritteli Eric Bell . Levyosioita joukko esineitä on: . Siksi on parempi käyttää tehokkaita ja nopeita menetelmiä osion löytämiseksi, joka vastaa esitettyyn ongelmaan, eikä käydä läpi kaikkia mahdollisia ratkaisuja.
Lopuksi, kun analyysi ei keskity yksilöihin, esineisiin tai esineisiin, vaan niiden välisiin suhteisiin, assosiaatiosääntöjen etsiminen on sopiva työkalu. Tätä tekniikkaa käytettiin alun perin ostoskorianalyysiin tai sekvenssianalyysiin. Tällöin on mahdollista tietää, mitä tuotteita samanaikaisesti esimerkiksi supermarketista ostaa hyvin suuri määrä asiakkaita; sitä käytetään myös verkkosivustojen navigointipolun analyysiongelmien ratkaisemiseen. Yhdistämissääntöjen hakua voidaan käyttää valvotulla tavalla; Apriori , GRI , Carma, ARD menetelmä tai jopa PageRank algoritmit käyttävät tätä tekniikkaa.
Ennustavien menetelmien tarkoituksena on selittää tai ennustaa yksi tai useampi havaittavissa oleva ja tehokkaasti mitattava ilmiö. Konkreettisesti heitä kiinnostaa yksi tai useampi muuttuja, jotka on määritelty analyysin kohteiksi. Esimerkiksi sen todennäköisyyden arvioiminen, että henkilö ostaa tuotteen toisen, todennäköisyys reagoida suoramarkkinointitoimintaan , todennäköisyys sairastua tiettyyn sairauteen, parantaa se, mahdollisuudet, että verkkosivuston sivulla käynyt henkilö palaa takaisin sille ovat tyypillisesti tavoitteita, jotka voidaan saavuttaa ennakoivilla menetelmillä.
Ennakoivassa tiedonlouhinnassa on kahdenlaisia toimintoja: syrjintä tai sijoitus ja regressio tai ennustus, kaikki riippuu selitettävän muuttujan tyypistä. Syrjintä koskee kvalitatiivisia muuttujia, kun taas regressio koskee jatkuvia muuttujia.
Luokittelu- ja ennustusmenetelmät mahdollistavat yksilöiden erottamisen useisiin luokkiin. Jos luokka tunnetaan etukäteen ja luokitustoiminto koostuu yksilöiden ominaisuuksien analysoinnista luokittelemiseksi luokalle, menetelmän sanotaan olevan "valvottu". Muuten puhumme "valvomattomista" menetelmistä, tämä sanasto on johdettu koneoppimisesta . Ero aiemmin havaittujen kuvaavien luokittelumenetelmien ja ennustavien luokitusmenetelmien välillä johtuu siitä, että niiden tavoite on erilainen: ensimmäiset "pienentävät, tiivistävät, syntetisoivat tietoja" antavat selkeämmän kuvan tiedoista. 'tietoryhmät, kun taas toisessa selitetään yksi tai useampi kohdemuuttuja näiden kohteiden arvojen ennustamiseksi uusille tulijoille.
EsimerkkejäVoimme viitata joihinkin esimerkkeihin ennustemenetelmistä ja esittää ne sen mukaan, mistä alasta ne tulevat.
Keinotekoisesta älykkyydestä johdettujen menetelmien joukossa analyytikko pystyy käyttämään päätöksentekopuita , toisinaan ennustamiseen, joskus diskretisoimaan kvantitatiivisia tietoja , tapauspohjaista päättelyä , hermoverkkoja , säteittäisiä neuroneja luokitteluun ja toimintojen lähentämiseen, tai ehkä geneettiset algoritmit , jotkut tukevat Bayesin verkkoja, toiset kuten Timeweaver etsimään harvinaisia tapahtumia .
Jos analyytikko on taipuvaisempi käyttämään tilastoista ja todennäköisyydestä johdettuja menetelmiä, hän kääntyy lineaaristen tai epälineaaristen regressiotekniikoiden suhteen laajassa merkityksessä löytääkseen approksimaatiofunktion, Fisherin diskriminanttianalyysin , logistisen regression ja PLS-logistisen regression ennustamaan kategorinen muuttuja tai yleistetty lineaarinen malli (GLM), yleistetty additiivinen malli (GAM) tai log-lineaarinen malli sekä postuloidut ja postuloimattomat moniregressiomallit moniulotteisen muuttujan ennustamiseksi.
Mitä Bayes päättelyyn ja erityisesti Bayes-verkot , ne voivat olla hyödyksi analyytikko jos hän pyrkii syitä ilmiö tai etsii esiintymistodennäköisyys tapahtuman.
Jos hän haluaa täydentää puuttuvat tiedot, k-lähimmän naapurin menetelmä (K-nn) jää hänen käytettävissään.
Algoritmiluettelo kehittyy joka päivä, koska niillä kaikilla ei ole samaa tarkoitusta, niitä ei sovelleta samoihin syöttötietoihin, eikä mikään ole optimaalinen kaikissa tapauksissa. Lisäksi ne osoittautuvat käytännössä toisiaan täydentäviksi ja yhdistämällä ne älykkäästi rakentamalla malleja malleista tai metamalleista , on mahdollista saada erittäin merkittäviä suorituskyky- ja laatuvoittoja. ICDM-IEEE teki vuonna 2006 sijoituksen kymmenestä algoritmista, joilla on eniten vaikutusta tiedonlouhinnan maailmaan: tämä sijoitus on tehokas apu näiden algoritmien valinnassa ja ymmärtämisessä.
Stanfordin yliopisto on kilpailijoita syyskauden vuonna 2007 molempien joukkueiden seuraaviin hankkeesta: rakennuksen pohjan elokuvat tarkastella kunkin asiakkaan jakeluverkon, jonka liittymät maksaa magneettikorttia, todennäköisimmät yleisön elokuva, joka ei ole vielä jää nähtäväksi. Yksi joukkue keskittyi etsimään erittäin hienoja algoritmeja tietokannan tiedoista, toinen päinvastoin otti äärimmäisen yksinkertaisia algoritmeja, mutta yhdisti jakelijan tarjoaman tietokannan Internet Movie Database (IMDB) -sisällön rikastuttamiseksi. sen tiedot. Toinen joukkue sai paljon tarkempia tuloksia. Eräässä artikkelissa ehdotetaan, että Googlen tehokkuus johtuu vähemmän sen PageRank- algoritmista kuin erittäin suuresta tietomäärästä, jonka Google voi korreloida ristiviittaamalla kyselyhistoriaa ja analysoimalla käyttäjiensa selauskäyttäytymistä eri sivustoissa.
Nykyaikaisilla laskentavälineillä yhtä tai toista näistä kahdesta ratkaisusta voidaan harkita kussakin projektissa, mutta on tullut esiin muita tekniikoita, jotka ovat osoittaneet toimivuutensa mallien laadun ja suorituskyvyn parantamisessa.
Laatu ja suorituskykyLaatumalli on nopea malli, jonka virhesuhteen tulisi olla mahdollisimman alhainen. Sen ei tulisi olla herkkä valvottujen menetelmien otoksen vaihteluille , sen olisi oltava vankka ja kestettävä tietojen hitaat muutokset. Lisäksi se, että se on yksinkertainen, ymmärrettävä ja tuottaa helposti tulkittavia tuloksia, lisää sen arvoa. Lopuksi se voidaan määrittää uudelleenkäytettäväksi.
Useat indikaattorit arvioinnissa käytetään laadun mallin ja näiden joukosta ROC ja nosta käyrät , The Gini-indeksi ja juuren keskineliövirhe show, jossa ennustuksen piilee vastaa todellisuutta ja antavat näin hyvän käsityksen siitä arvosta tämän mallin laadun komponentin.
Vankkuus ja tarkkuus ovat kaksi muuta puolta mallin laadussa. Tehokkaan mallin saamiseksi tekniikka koostuu datan heterogeenisuuden rajoittamisesta, otannan optimoinnista tai mallien yhdistämisestä.
Esisegmentointi ehdottaa populaation luokittelemista, sitten mallin rakentamista kuhunkin luokkaan, jossa tiedot ovat homogeenisempia, ja lopuksi tulosten yhdistämiseksi.
Mallien yhdistämisen yhteydessä analyytikko soveltaa samaa mallia hieman erilaisiin näytteisiin kuin alkuperäinen näyte ja yhdistää sitten tulokset. Pussitus ja tehostaa olivat tehokkain ja suosituin vuonna 1999. Markkinoinnissa esimerkiksi korotuksen algoritmi käyttötarkoituksia pussitus tekniikka tuottaa ihmisryhmien tunnistus malli, joka voi vastata kaupallista toimintaa jälkeen värväämistä.
Lopuksi mallien yhdistelmä saa analyytikon soveltamaan useita malleja samaan populaatioon ja yhdistämään tulokset. Esimerkiksi tekniikat, kuten erotteleva analyysi ja hermoverkot, on helppo yhdistää.
Tiedon louhintaa ei olisi ilman työkaluja. IT-tarjous on läsnä ohjelmistona ja myös joillakin erikoistuneilla alustoilla. Kaupallisten ohjelmistojen alalla on paljon ohjelmistoja , mutta joitain on myös vapaiden ohjelmistojen alalla . Ei ole parempia ohjelmistoja kuin muut, kaikki riippuu siitä, mitä haluat tehdä sillä. Kaupalliset ohjelmistot on tarkoitettu enemmän yrityksille tai organisaatioille, joilla on paljon tutkittavia tietoja, kun taas ilmaiset ohjelmistot on tarkoitettu erityisesti opiskelijoille, niille, jotka haluavat kokeilla uusia tekniikoita, ja pk-yrityksille. Vuonna 2009 eniten käytetyt työkalut olivat järjestyksessä SPSS , RapidMiner (en) , SAS , Excel , R , KXEN (en) , Weka , Matlab , KNIME , Microsoft SQL Server , Oracle DM (en) , STATISTICA ja CORICO ( Korrelaatioiden ikonografia ). Vuonna 2010 R oli Rexer Analytics -kyselyyn vastanneiden käyttäjien eniten käytetty työkalu, ja STATISTICA näytti olevan suosituin työkalu useimmille tiedonhakijoille (18%). STATISTICA , IBM SPSS Modeler ja R saivat korkeimmat tyytyväisyysarvioinnit vuosina 2010 ja 2009 tässä Rexer Analytics -tutkimuksessa .
Cloud computing ( cloud computing ) ei ole tiedon louhinta työkalu, mutta joukko verkkopalveluja, toimitetaan tarjoajien internetissä, sijoittaa ja / tai tietojen käytön ja ohjelmistot. Siitä huolimatta on olemassa palveluja, joita voidaan käyttää tiedonlouhinnan alalla. Oracle-tiedonlouhinta paljastetaan Amazonin IaaS-palvelussa tarjoamalla asiakkaille Amazon Machine Image, joka sisältää Oracle-tietokannan ja käyttöliittymän tiedonlouhintaan; R- ja Python-kuva on saatavana myös Amazon Web Services -palvelussa . Näyttelijät, jotka ovat läsnä yksinomaan pilvessä ja erikoistuneet tiedonlouhintaan, tarjoavat palveluitaan, kuten Braincube , In2Cloud , Predixion ja Cloud9Analytics .
Tiedonlouhinta on tekniikka, jolla on rajoituksia ja joka aiheuttaa ongelmia.
Ohjelmisto ei ole omavarainen. Tiedonlouhintatyökalut eivät tarjoa tulkintaa tuloksista, tiedonlouhintaan erikoistunut analyytikko ja henkilö, joka tuntee ammatin, josta tiedot on saatu, ovat tarpeen ohjelmiston tuotosten analysoimiseksi.
Lisäksi tiedonlouhintaohjelmisto antaa aina tuloksen, mutta mikään ei osoita sen merkitystä eikä osoita sen laatua. Mutta yhä enemmän arvioinnin aputekniikoita toteutetaan ilmaisissa tai kaupallisissa ohjelmistoissa.
Muuttujien välisiä suhteita ei ole määritelty selkeästi. Datanetsintätyökalut osoittavat, että tällaisilla muuttujilla on vaikutusta selitettävään muuttujaan, mutta ne eivät kerro mitään suhteen tyypistä, etenkään ei sanota, ovatko suhteet syy ja seuraus .
Lisäksi voi olla erittäin vaikeaa toistaa analyysin tuloksia selkeästi joko kuvaajien, käyrien tai histogrammien avulla. Ei-teknikolla on joskus vaikeuksia ymmärtää hänelle annettuja vastauksia.
Sanakirja on frankofonille, neofyytille, vaikeus tai jopa ongelma. Tämän ymmärtämiseksi on mielenkiintoista määritellä ranskan- ja anglosaksikirjallisuudessa esiintyvä sanasto. Ottamalla anglosaksisen sanaston viitteeksi klusterointi ymmärretään tiedonlouhinnassa segmentointina, tilastoissa ja data-analyysissä luokitteluna. Englanninkielinen luokitus vastaa luokittelua tiedonlouhinnassa, erotteluanalyysejä tai luokittelua ranskalais-tyyppisessä tietoanalyysissä ja päätöksenteko-ongelmaa tilastoissa. Lopuksi päätöspuut ovat päätöspuita tiedonlouhinnassa, ja segmentoinnista voidaan tässä tapauksessa kuulla data-analyysin alalla. Terminologia on epäselvä.
Tietojen laatu , toisin sanoen tietojen relevanssi ja täydellisyys, on välttämätöntä tiedonlouhinnassa, mutta ei riittävästi. Tietojen syöttövirheet, kaksoiskappaleet, tyhjät tiedot tai tiedot ilman aikaa viittaavat myös tietojen laatuun. Yritykset ovat ottamassa käyttöön tietojen laadunvarmistusrakenteita ja -menettelyjä voidakseen reagoida tehokkaasti uusiin ulkoisiin säännöksiin ja sisäisiin tarkastuksiin ja lisätä niiden tietojen kannattavuutta, joita ne pitävät osana perintöään.
Järjestelmän yhteentoimivuus on sen kyky työskennellä muiden toimittajien luomien järjestelmien kanssa. Tiedonlouhintajärjestelmien on kyettävä toimimaan useiden tietokantojen hallintajärjestelmien , tiedostotyyppien , tietotyyppien ja erilaisten antureiden kanssa. Lisäksi yhteentoimivuus tarvitsee tietojen laatua. Alan yhteentoimivuuspyrkimyksistä huolimatta näyttää siltä, että joillakin alueilla tämä ei ole sääntö.
Tiedot kerätään vastaamaan ammatin esittämään kysymykseen. Tiedon louhinnan riski on näiden tietojen käyttö muuhun kuin alun perin määritettyyn tarkoitukseen. Tiedon kaappaaminen vastaa kontekstista lainaamista. Lisäksi se voi johtaa eettisiin kysymyksiin.
Yksityisyyteen yksilöiden voi uhata tietojen kaivoshankkeita, ellei varotoimia erityisesti etsimään web ja käyttöä henkilötietoja kerätään internetissä tai ostotottumusten, mieltymykset ja jopa ihmisten terveys voi altistua. Toinen esimerkki on tiedotustoimisto ja erityisesti TIA ( Total Information Awareness ) -ohjelma, jossa hyödynnettiin täysin tiedonlouhintatekniikkaa ja joka oli yksi " syyskuun 11. päivän jälkeisistä " hankkeista, jonka Yhdysvaltain kongressi oli aloittanut rahoituksen. , mutta hylkäsi sen sitten erityisen merkittävien uhkien takia, jotka tämä ohjelma aiheutti Yhdysvaltojen kansalaisten yksityisyydelle. Mutta ilman paljasteta, keräämien henkilötietojen yhtiöiden kautta asiakkuuden hallinta (CRM) työkaluja , kassakoneet , pankkiautomaatit , terveys-kortit , jne , voi johtaa tiedonlouhintatekniikoiden avulla luokittelemaan ihmiset hierarkiaan ryhmistä, hyvistä huonoihin, näkymiin , asiakkaisiin, potilaisiin tai mihin tahansa rooliin yhteiskunnan tietyllä hetkellä ihmisten tuntemattomien kriteerien mukaisesti. itse. Tässä näkökulmassa ja tämän negatiivisen näkökulman korjaamiseksi Rakesh Agrawal ja Ramakrishnan Sikrant kyseenalaistavat ihmisten yksityisyyden suojaavan tiedonlouhinnan toteutettavuuden. Toinen ongelma on kaivaukseen tarvittavien tietojen tallentaminen , koska digitaalisia tietoja voidaan hakata . Ja tässä tapauksessa tietojen purkaminen hajautetuissa tietokannoissa ja salaus ovat osa olemassa olevia teknisiä vastauksia, jotka yritykset voivat toteuttaa.
Jotkut yritykset tai ryhmät ovat erikoistuneet, esimerkiksi Acxiom , Experian Information Solutions , D & B ja Harte-Hanks kulutustietoihin tai Nielsen NV yleisötietoihin.
Yllä kuvatun tiedonlouhinnan lisäksi niitä voidaan kutsua klassisiksi, tiedonlouhinnan teknisiksi erikoisaloiksi, kuten hakukuvat ( kuvakaivokset ), verkkokaivokset ( verkkotiedon louhinta ), tietovirran louhinta ( tietovirran louhinta ) ja tekstikaivokset ( tekstin louhinta ) ovat kehittymässä 2010-luvulla ja kiinnittäneet monien tutkijoiden ja teollisuuden huomion, mukaan lukien riskit, jotka aiheutuvat henkilötietojen lähettämisestä .
Nämä yritykset käyttävät ohjelmistoja yksilöiden luokittelemiseksi heidän sosiaalisen taustansa ja kuluttajaominaisuuksiensa mukaan (esim. Claritas Prizm (luonut Claritas Inc. ja ostanut Nielsen Company) .
Audio kaivos- , uudempi tekniikka, joskus liittyvät data mining, voi havaita äänien audiovirran. Sitä käytetään pääasiassa äänentunnistuksen alalla ja / tai se perustuu siihen.
Etsintäkuva on tekniikka, joka on kiinnostunut sisältöä kuvan. Se poimii ominaisuudet joukosta kuvia, esimerkiksi verkosta, luokitellakseen ne, ryhmitellä ne tyypin mukaan tai tunnistamaan kuvassa olevat muodot etsimään kopioita kuvasta tai havaitsemaan esimerkiksi tietyn objektin .
Tekstilouhinta on tutkia tekstien jotta saadaan korkealaatuista tietoa. Tätä tekniikkaa kutsutaan usein tekstin louhimiseksi . Se on tietokonekäsittelyjoukko, joka koostuu tiedon hankkimisesta uutuus- tai samankaltaisuuskriteerin mukaisesti ihmisten ihmisille tuottamissa teksteissä. Käytännössä tämä merkitsee ottamista algoritmeja yksinkertaistettu malli kielellisen teorioita tietokonejärjestelmiin oppimisen ja tilastoja. Alat ovat siis laskennallinen kielitiede , kielitekniikka , koneoppiminen , tilastot ja tietojenkäsittelytiede .
Kyse on verkon muodostaman valtavan tietolähteen hyödyntämisestä verkon louhinnalla sekä mallien ja mallien löytämisestä verkon käytöstä, sisällöstä ja rakenteesta. Verkon käytön kaivaminen ( verkkokäytön kaivostoiminta tai verkkolokin louhinta ) on hyödyllinen tiedonhankintaprosessi, joka on tallennettu palvelinlokiin. Tämä kaivos hyödyntää tekstin louhintaa tekstidokumenttien analysointiin. Verkon rakenteen tutkiminen on prosessi, jolla analysoidaan verkkoihin tallennettujen asiakirjojen tai sivujen välisiä suhteita, a priori tuntemattomia.
Datavirta louhinta ( datavirran mining ) on tekniikka tutkia saapuva data tasaisena virtana, rajoittamaton, jossa on suuri nopeus, ja jotkut perusteet muuttuvat ajan myötä: esimerkiksi, analyysi datavirtojen emittoiman autoteollisuuden anturit. Mutta esimerkkejä sovelluksista löytyy televiestinnästä, verkonhallinnasta, rahoitusmarkkinoiden hallinnasta, valvonnasta ja jokapäiväisestä elämästä, lähempänä ihmisiä, kuten analysoimalla pankkiautomaatteja , luottokorttitapahtumia jne.
Paikkatietojen louhinta ( Spatial data mining ) on tekninen etsintä paikkatiedon meidän mittakaavassa maan päällä, mutta myös tähtitieteellisiä tai mikroskooppisia , jonka tarkoituksena on löytää mielenkiintoisia kuvioita dataa, joka sisältää sekä tekstiä aikatietojen tai geometriset tiedot, kuten vektorit , kehykset tai kaaviot. Paikkatiedot tarjoavat tietoa eri mittakaavoissa, eri tekniikoilla, eri muodoissa, usein pitkän ajanjakson ajan muutosten havaitsemiseksi. Volyymit ovat siksi hyvin suuria, tiedot voivat olla epätäydellisiä ja meluisia. Lisäksi paikkatietojen väliset suhteet ovat usein implisiittisiä: joukko- , topologiset , suuntasuhteet ja metriset suhteet kohtaavat usein tätä erikoistumista. Paikkatiedon louhinta on siksi erityisen vaikeaa.
Spatial data mining käytetään tutkia geotieteet tietoja, rikollisuus kartoitustietoa, väestönlaskennan tiedot , tieliikenteen , syövän puhkeamisen , jne
Tiedon louhinnan tulevaisuus riippuu digitaalisen datan tulevaisuudesta. Kynnyksellä Web 2.0 , blogit , wikit ja pilvipalveluihin on räjähdysmäisesti volyymin digitaalisen datan ja raaka talletukset tiedonlouhintaan ovat siten merkittävä.
Monet kentät käyttävät edelleen vähän tiedonlouhintaa omiin tarpeisiinsa. Blogosfäärin tietojen analysointi on vielä alkuvaiheessa. Tietoekologian ymmärtäminen esimerkiksi Internet-median toiminnan analysoimiseksi on vasta alkamassa.
Niin kauan kuin yksilöiden yksityisyyteen liittyvät ongelmat on ratkaistu, tiedonlouhinta voi auttaa vastaamaan lääketieteellisiin kysymyksiin ja erityisesti sairaalariskien ehkäisyyn.
Menemättä niin pitkälle kuin vähemmistöraportin tieteiskirjallisuuteen , profilointitekniikat ilman ennakkoa mahdollistavat tiedonlouhinta, joka saattaa aiheuttaa uusia eettisiä ongelmia. BBC Horizon -dokumentti tiivistää joitain näistä kysymyksistä.
Lopuksi uusien tietojen ja uusien kenttien ilmaantuessa tekniikoita kehitetään edelleen.