Tekstilouhinta tai "tiedon louhinta" teksteissä on erikoistuminen tiedonlouhinta ja on osa alan tekoälyä . Tätä tekniikkaa kutsutaan usein tekstin louhimiseksi .
Se merkitsee tietokonekäsittelyjoukon, joka koostuu tiedon hankkimisesta ihmisille ihmisille tuotettujen tekstien uutuuden tai samankaltaisuuden kriteerin mukaisesti. Käytännössä tämä merkitsee laskemisesta osaksi algoritmin yksinkertaistettu malli kielellisen teorioita tietokonejärjestelmiin oppimisen ja tilastoja, ja teknologiat ymmärtää luonnollisen kielen .
Alat ovat siis laskennallinen kielitiede , kielitekniikka , koneoppiminen , tilastot ja tietojenkäsittelytiede .
Voimme erottaa tekstin louhinnalla toteutetun käsittelyn kaksi päävaihetta.
Ensimmäinen askel, analyysi , on tunnistaa sanat, lauseet, niiden kieliopilliset roolit, suhteet ja merkitykset. Tämä ensimmäinen vaihe on yhteinen kaikille hoidoille. Analyysi ilman tulkintaa ei kiinnosta kovinkaan paljon ja nämä kaksi ovat riippuvaisia. Siksi tämän analyysin tulkinta on toisen vaiheen tehtävä.
Analyysin tulkinnan toisessa vaiheessa voit valita yhden tekstin muiden joukosta. Esimerkkejä sovelluksista ovat luokittelun sähköpostien kuin roskapostiksi , eli toivottua sähköpostia, tai ei-roskapostiksi: soveltaminen kyselyiden asiakirjan hakukoneen tai tekstin yhteenvedon valitsee edustajan lauseet tekstin, tai jopa muotoilee uudelleen niitä.
Valintaperuste voi olla vähintään kahden tyyppinen: uutuus ja samankaltaisuus. Tiedon uutuus koostuu suhteiden löytämisestä, erityisesti seurauksista, jotka eivät olleet nimenomaisia, koska ne olivat epäsuoria tai johtuivat tekstin kahdesta kaukaisesta elementistä. Samankaltaisuus tai ristiriita suhteessa toiseen tekstiin tai jopa vastaus tiettyyn kysymykseen koostuu sellaisten tekstien löytämisestä, jotka vastaavat eniten alkuperäisen pyynnön joukkoa kuvaajia. Kuvaimet ovat esimerkiksi yleisimpiä substantiiveja ja verbejä tekstissä.
Tekstin louhinta voi koostua tekstisarjan indeksoinnista niiden sisältämien sanojen suhteen. Sitten voimme kysellä näin luotua hakemistoa selvittääksemme kyselyn ja tekstiluettelon yhtäläisyydet.
Indeksointialgoritmi kuvataan seuraavasti:
Sovelluksia on monia, aina hakukoneiden yksinkertaisesta indeksoinnista tiedon rakentamiseen rakentamattomista asiakirjoista.
Muut tekniikat, kuten lemmatisaatio , mahdollistavat indeksoinnin parantamisen, mutta menettävät osan merkityksestä.
Etsiä tietoja (tai hakea tietoa Englanti) on erityinen tehtävä tekstihakuja. Tavoitteena on helpottaa asiaankuuluvien tietojen tai asiakirjojen hakua käyttäjän tarpeiden mukaan. Tätä varten järjestelmä luottaa käyttäjälle toimitettavaan asiaankuuluvaan tietoon, mutta tulkitsee myös näytetyn datan hyödyllisyyden suhteessa käyttäjän käyttäytymiseen.
Hakukoneet kuten Google , Exalead tai Yahoo! ovat tunnettuja tekstinlouhintasovelluksia suurille tietomassoille. Hakukoneet eivät kuitenkaan luota vain tekstin indeksointiin, vaan myös siihen, miten sivut korostetaan suhteessa toisiinsa. Googlen käyttämä algoritmi on PageRank , ja on yleistä nähdä HITS akateemisessa ympäristössä.
Esimerkki biolääketieteellisestä tekstinlouhintasovelluksesta on PubGene , joka yhdistää tekstin louhinnan ja tulosten visualisoinnin graafisina verkkoina. Toinen esimerkki ontologioiden käytöstä tekstinlouhinnassa on GoPubMed.org .
Monissa sähköpostijohtajissa on nyt roskapostisuodatin . On myös roskapostin esto-ohjelmisto, joka yhdistää sähköpostipalvelimen ja postinhallinnan.
Echelonin globaali yksityisen ja julkisen viestinnän sieppausjärjestelmä on esimerkki tekstin louhinnan sotilaallisesta ja taloudellisesta käytöstä.
Vuonna 2007 Europolin rikollisuuden vastainen osasto hankki analyysijärjestelmän torjuakseen järjestäytynyttä rikollisuutta tehokkaammin. Tämä järjestelmä sisältää joitain kehittyneimpiä tekniikoita tekstin louhinnan ja analyysin alalla. Tämän projektin ansiosta Europol on edistynyt merkittävästi näiden tavoitteiden saavuttamisessa.
Tekstin louhintamenetelmät myötävaikuttavat taloudellisen tiedustelun prosessiin : suhteiden kartoitus, toimijoiden välisten nimenomaisten suhteiden havaitseminen (lisenssioikeudet, sulautumiset / yritysostot jne.)
Tekstin louhintatekniikoita käytetään laajasti Internet-käyttäjien käyttäytymisen analysointiin: vierailupolku, oston aloittamista suosivat kriteerit, mainoskampanjoiden tehokkuus, mielipiteiden analyysi jne.
Tekstin louhinta eroaa automaattisesta kielenkäsittelystä yleisellä, massiivisella, käytännöllisellä ja algoritmisella lähestymistavallaan, koska se on yhteydessä tiedonlouhintaan. Hänen lähestymistavansa on vähemmän kielellinen. Lisäksi tekstin louhinta ei ole kiinnostunut suullisesta kielestä, kuten puheentunnistus .
Tekstissä kaivos kulkee tietojen etsintää varten kyselyosa asiakirjaa hakukoneen. Toisaalta informaatiotutkimus on a priori kiinnostunut enemmän mahdollisten pyyntöjen tyypeistä ja niihin liittyvistä indeksoinnista kuin tekstien tulkinnasta.
Ja tiedon vuoksi, koska olemme siirtymässä pois tekstin louhinnan alalta, analyysin tulkinta voi myös luoda uuden tekstin . Esimerkkejä sovelluksista ovat kirjoitusvirheiden korjaaminen , käännös , ihmisen ja koneen välinen vuoropuhelu tai kirjoitustyylin jäljittely.
Luettelo (ei tyhjentävä) avoimen lähdekoodin tekstinlouhinta-alustasta: