Tekstin louhinta

Tekstilouhinta tai "tiedon louhinta" teksteissä on erikoistuminen tiedonlouhinta ja on osa alan tekoälyä . Tätä tekniikkaa kutsutaan usein tekstin louhimiseksi .

Se merkitsee tietokonekäsittelyjoukon, joka koostuu tiedon hankkimisesta ihmisille ihmisille tuotettujen tekstien uutuuden tai samankaltaisuuden kriteerin mukaisesti. Käytännössä tämä merkitsee laskemisesta osaksi algoritmin yksinkertaistettu malli kielellisen teorioita tietokonejärjestelmiin oppimisen ja tilastoja, ja teknologiat ymmärtää luonnollisen kielen .

Alat ovat siis laskennallinen kielitiede , kielitekniikka , koneoppiminen , tilastot ja tietojenkäsittelytiede .

Toteutus

Voimme erottaa tekstin louhinnalla toteutetun käsittelyn kaksi päävaihetta.

Ensimmäinen askel, analyysi , on tunnistaa sanat, lauseet, niiden kieliopilliset roolit, suhteet ja merkitykset. Tämä ensimmäinen vaihe on yhteinen kaikille hoidoille. Analyysi ilman tulkintaa ei kiinnosta kovinkaan paljon ja nämä kaksi ovat riippuvaisia. Siksi tämän analyysin tulkinta on toisen vaiheen tehtävä.

Analyysin tulkinnan toisessa vaiheessa voit valita yhden tekstin muiden joukosta. Esimerkkejä sovelluksista ovat luokittelun sähköpostien kuin roskapostiksi , eli toivottua sähköpostia, tai ei-roskapostiksi: soveltaminen kyselyiden asiakirjan hakukoneen tai tekstin yhteenvedon valitsee edustajan lauseet tekstin, tai jopa muotoilee uudelleen niitä.

Valintaperuste voi olla vähintään kahden tyyppinen: uutuus ja samankaltaisuus. Tiedon uutuus koostuu suhteiden löytämisestä, erityisesti seurauksista, jotka eivät olleet nimenomaisia, koska ne olivat epäsuoria tai johtuivat tekstin kahdesta kaukaisesta elementistä. Samankaltaisuus tai ristiriita suhteessa toiseen tekstiin tai jopa vastaus tiettyyn kysymykseen koostuu sellaisten tekstien löytämisestä, jotka vastaavat eniten alkuperäisen pyynnön joukkoa kuvaajia. Kuvaimet ovat esimerkiksi yleisimpiä substantiiveja ja verbejä tekstissä.

Esimerkki: tekstien indeksointi

Tekstin louhinta voi koostua tekstisarjan indeksoinnista niiden sisältämien sanojen suhteen. Sitten voimme kysellä näin luotua hakemistoa selvittääksemme kyselyn ja tekstiluettelon yhtäläisyydet.

Indeksointialgoritmi kuvataan seuraavasti:

Indeksoimme tekstin sen sanojen suhteen
Suoritamme käännetyn indeksin (indeksoimme sisältämät sanat suhteessa niitä sisältäviin teksteihin)
Kyselyä käsiteltäessä testataan kyselyn samankaltaisuus käänteisen hakemistomme kanssa
Tämä palauttaa kyselyn kanssa samanlaiset tekstit ja jokaiselle tekstille arvon.

Sovelluksia on monia, aina hakukoneiden yksinkertaisesta indeksoinnista tiedon rakentamiseen rakentamattomista asiakirjoista.

Muut tekniikat, kuten lemmatisaatio , mahdollistavat indeksoinnin parantamisen, mutta menettävät osan merkityksestä.

Sovellukset

Poikkeavuuksien havaitseminen tekstiraportissa
Lääketieteellinen diagnoosi

Tietojen etsiminen

Etsiä tietoja (tai hakea tietoa Englanti) on erityinen tehtävä tekstihakuja. Tavoitteena on helpottaa asiaankuuluvien tietojen tai asiakirjojen hakua käyttäjän tarpeiden mukaan. Tätä varten järjestelmä luottaa käyttäjälle toimitettavaan asiaankuuluvaan tietoon, mutta tulkitsee myös näytetyn datan hyödyllisyyden suhteessa käyttäjän käyttäytymiseen.

Hakukoneet kuten Google , Exalead tai Yahoo! ovat tunnettuja tekstinlouhintasovelluksia suurille tietomassoille. Hakukoneet eivät kuitenkaan luota vain tekstin indeksointiin, vaan myös siihen, miten sivut korostetaan suhteessa toisiinsa. Googlen käyttämä algoritmi on PageRank , ja on yleistä nähdä HITS akateemisessa ympäristössä.

Biolääketieteelliset sovellukset

Esimerkki biolääketieteellisestä tekstinlouhintasovelluksesta on PubGene , joka yhdistää tekstin louhinnan ja tulosten visualisoinnin graafisina verkkoina. Toinen esimerkki ontologioiden käytöstä tekstinlouhinnassa on GoPubMed.org .

Tiedonsiirron suodatus

Monissa sähköpostijohtajissa on nyt roskapostisuodatin . On myös roskapostin esto-ohjelmisto, joka yhdistää sähköpostipalvelimen ja postinhallinnan.

Tietoturvasovellukset

Echelonin globaali yksityisen ja julkisen viestinnän sieppausjärjestelmä on esimerkki tekstin louhinnan sotilaallisesta ja taloudellisesta käytöstä.

Vuonna 2007 Europolin rikollisuuden vastainen osasto hankki analyysijärjestelmän torjuakseen järjestäytynyttä rikollisuutta tehokkaammin. Tämä järjestelmä sisältää joitain kehittyneimpiä tekniikoita tekstin louhinnan ja analyysin alalla. Tämän projektin ansiosta Europol on edistynyt merkittävästi näiden tavoitteiden saavuttamisessa.

Taloudellinen älykkyys

Tekstin louhintamenetelmät myötävaikuttavat taloudellisen tiedustelun prosessiin : suhteiden kartoitus, toimijoiden välisten nimenomaisten suhteiden havaitseminen (lisenssioikeudet, sulautumiset / yritysostot jne.)

Markkinointi

Tekstin louhintatekniikoita käytetään laajasti Internet-käyttäjien käyttäytymisen analysointiin: vierailupolku, oston aloittamista suosivat kriteerit, mainoskampanjoiden tehokkuus, mielipiteiden analyysi jne.

Liittyvät tieteenalat

Tekstin louhinta eroaa automaattisesta kielenkäsittelystä yleisellä, massiivisella, käytännöllisellä ja algoritmisella lähestymistavallaan, koska se on yhteydessä tiedonlouhintaan. Hänen lähestymistavansa on vähemmän kielellinen. Lisäksi tekstin louhinta ei ole kiinnostunut suullisesta kielestä, kuten puheentunnistus .

Tekstissä kaivos kulkee tietojen etsintää varten kyselyosa asiakirjaa hakukoneen. Toisaalta informaatiotutkimus on a priori kiinnostunut enemmän mahdollisten pyyntöjen tyypeistä ja niihin liittyvistä indeksoinnista kuin tekstien tulkinnasta.

Ja tiedon vuoksi, koska olemme siirtymässä pois tekstin louhinnan alalta, analyysin tulkinta voi myös luoda uuden tekstin . Esimerkkejä sovelluksista ovat kirjoitusvirheiden korjaaminen , käännös , ihmisen ja koneen välinen vuoropuhelu tai kirjoitustyylin jäljittely.

Standardit

Semantic Web : RDF , RDF Schema , OWL , jne
IBM: n kehittämä strukturoimaton tiedonhallinnan arkkitehtuuri (en)
Tekstikoodausaloite
Avoin kieliarkistoyhteisö
ISLE Meta Data Initiative (en)
Nature- lehden Open Text Mining Interface .

Alustat

Recherches Provalisin kehittämä WordStat- sisältöanalyysi- ja tekstinlouhintaohjelmisto
Antelooppi, Proxemin kehittämä sisältöanalyysialusta

Avoin lähdekoodi

Luettelo (ei tyhjentävä) avoimen lähdekoodin tekstinlouhinta-alustasta:

EI
UIMA alkaen Apache
Unitex / GramLab , kehittämän ja ylläpitämän laskennallinen kielitiede joukkue LIGM , Université Paris-Est
TXM , jonka on kehittänyt ENS Lyonin tiimi
Weblab-projekti on OW2

Omistaja

Teksti Analytics Toolbox vuonna Matlab

Huomautuksia ja viitteitä

(in) Tavish Srivastava, " Tiedonhakujärjestelmä selitetty yksinkertaisemmin! » , Osoitteessa www.analyticsvidhya.com ,7. huhtikuuta 2015(käytetty 30. elokuuta 2017 )
Selitys näiden algoritmien ratkaisemisesta ja joidenkin käyttäjien pyytämien sudenkuoppien ratkaisemisesta, katso (in) Kaivosivujen maatilat ja sen käyttö linkkien roskapostin havaitsemisessa , Zhou Bin, päämuisti Simon Fraserin yliopisto , maaliskuu 2007 .
Tor-Kristian Jenssen, Astrid Lægreid, Jan Komorowski1 & Eivind Hovig, " Kirjallisuusverkosto ihmisen geeneistä geeniekspressiota varten suuritehoisella analyysillä ", Nature Genetics , voi. 28,2001, s. 21–28 ( PMID 11326270 , DOI 10.1038 / ng0501-21 , lue verkossa )
- Yhteenveto: Daniel R. Masys, “Microray- datan linkittäminen kirjallisuuteen ”, Nature Genetics , voi. 28,2001, s. 9–10 ( PMID 11326264 , DOI 10.1038 / ng0501-9 )
GoPubMed muuttaa yksitoikkoisen hakukoneen todelliseksi aivoksi , julkaistu 18. joulukuuta 2009
" " IALEIA-LEIU: n vuosikokous Bostonissa 9. huhtikuuta 2008 " " ( Arkisto • Wikiwix • Archive.is • Google • Mitä tehdä? )
Antelope, NLP-foorumi merkitysten poimimiseksi tekstistä

Bibliografia

(en) Julia Silge ja David Robinson , tekstinlouhinta R: llä: siisti lähestymistapa , O'Reilly,2017( lue verkossa )