Tutkimus ( in ) teksti kokonaisuudessaan (tunnetaan myös nimellä kokotekstihaku tai vapaatekstihaku ) on hakutekniikka käytettäessä sähköisen asiakirjan tai tietokannan tekstiä, joka on tarkoitettu hakukoneen harkita kaikkia sanoja kunkin tallennetun asiakirjan ja yrittämällä sovittaa ne käyttäjän toimittamiin .
Hakutekniikat yleistyivät online- bibliografisissa tietokannoissa 1970-luvulla . Suurin osa verkkosivustoista ja sovellusohjelmista (kuten tekstinkäsittelyohjelmisto ) tarjoavat kokotekstihaun. Verkkohakukoneet, kuten AltaVista , käyttävät kokotekstihakutekniikoita, kun taas toiset indeksoivat vain osan indeksointijärjestelmänsä tutkimista verkkosivuista.
Yleisin lähestymistapa täystekstihaulla on tuottaa täyden indeksin tai ottelu kaikkien haettavissa asiakirjoissa. Jokaiselle sanalle (lukuun ottamatta työkalusanoja, jotka ovat liian usein käyttökelpoisia) luodaan merkintä, jossa luetellaan sanan jokaisen esiintymän tarkka sijainti dokumenttitietokannassa. Tällaisen luettelon käyttäminen on suhteellisen helppoa hakea kaikki kyselyä vastaavat asiakirjat tarvitsematta skannata kutakin asiakirjaa. Vaikka hyvin pienen asiakirjan korpuksia täyshakua voidaan tehdä peräkkäin, indeksointi on edullinen menetelmä lähes kaikki tekstihaut.
Kuten kaikki, jotka ovat suorittaneet kokotekstihaun, tunnistavat, että kokotekstihaku hae todennäköisesti paljon asiakirjoja, joilla ei ole merkitystä esitetyn kysymyksen kannalta. Tällaisia asiakirjoja kutsutaan vääriksi positiivisiksi . Epäasiallisten asiakirjojen noutaminen johtuu usein luonnolliseen kieleen liittyvästä epäselvyydestä ; esimerkiksi sana lakimies tarkoittaa sekä hedelmää että ammattia , ja toista käsittelevillä asiakirjoilla ei ole merkitystä toisesta kiinnostuneelle tutkijalle.
Luonnollisen kielen epäselvyyksien vuoksi kokotekstihaku tuottaa tyypillisesti haulistan, jonka tarkkuus on heikko : useimmat talteenotetusta materiaalista ei ole merkitystä. Sanastosta tutkimus pyrkii ratkaisemaan tämän ongelman merkinnöissä asiakirjat siten, että epäselvyyksiä on eliminoitu. Tästä menetelmästä voi kuitenkin puuttua asiaankuuluviin asiakirjoihin, jotka kokotekstihaku olisi sisältänyt.
Kokotekstihaun puutteita on korjattu kahdella tavalla: tarjoamalla käyttäjille työkalut, joiden avulla he voivat ilmaista kyselyjään tarkemmin, ja kehittämällä uusia hakualgoritmeja, jotka parantavat hakujen tarkkuutta.
Teknologian kehitys on parantanut huomattavasti kokotekstihaun suorituskykyä. Esimerkiksi Googlen PageRank- algoritmi antaa enemmän painoarvoa asiakirjoille, joihin hyperlinkkien kautta viittaa suuri määrä muita verkkosivuja . Tämä algoritmi parantaa merkittävästi käyttäjien käsitystä haun tarkkuudesta, mikä selittää sen suosion Internetin käyttäjien keskuudessa . Katso hakukoneesta lisää esimerkkejä.