Alaluokka: | Tekoäly , tietojenkäsittelytiede , laskennallinen kielitiede , teollisuus , akateeminen kurinalaisuus |
---|---|
Esineet |
Lemmatization Kieliopillinen merkinnän syntaksianalyysi lauseen rajaus täsmennys ( en ) rootization Leksikaalisen terminologian poiminta semantiikka ( en ) konekäännös nimeltään kokonaisuuden tunnistus automaattinen tekstin luonti optinen merkintunnistus kysymys-vastaus-järjestelmä tekstin seuraus ( en ) suhde poiminta ( en ) mielipide Mining- tekstin segmentointi ( en) ) sanallinen täsmennys Automaattinen tekstin yhteenveto ydinpuheen analyysi Automaattinen puheen tunnistaminen puheen segmentointi ( en ) puheen synteesi Sanan upottaminen hajoaminen ( d ) |
Luonnollisen kielen käsittely (Rep. NLP ) tai automaattista luonnollisen kielen tai kielen prosessoinnin (Rep. TAL ) on monitieteinen tieteenala, johon kieli , The tietokone ja tekoäly , jonka tavoitteena on luoda luonnollisen kielen käsittely työkaluja erilaisiin sovelluksiin. Sitä ei pidä sekoittaa laskennalliseen kielitieteeseen , jolla pyritään ymmärtämään kieliä atk-työkalujen avulla.
TALN tuli ulos tutkimuslaboratorioista, jotta se voidaan ottaa asteittain käyttöön tietokonesovelluksissa, jotka edellyttävät ihmiskielen integrointia koneeseen. Joten NLP: tä kutsutaan joskus kielitekniikaksi . Ranskassa luonnollisen kielenkäsittelyn päiväkirja on automaattinen kielenkäsittely , jonka on julkaissut Association for Automatic Language Processing (ATALA).
Ensimmäinen työ luonnollisen kielen prosessoinnissa alkoi 1950-luvulla, lähinnä Yhdysvalloissa, missä kylmään sotaan liittyvä poliittinen konteksti suosi konekäännöksen teeman kehitystä .
Ensimmäiset tietokoneohjelmat linkitettiin keskustelujen automaattiseen käsittelyyn. Vuonna 1950 Alan Turing esitti tekoälyn perustavassa artikkelissaan " Computing machinery and intelligence " arviointimenetelmän, jota myöhemmin kutsutaan nimellä " Turing-testi " tai "Turing-kriteeri". Tämä testi mittaa koneen älykkyyttä, joka perustuu keskusteluohjelman kykyyn esiintyä ihmisenä: Kirjoitettujen viestien vaihdossa ihmisen on määritettävä, onko hänen keskustelukumppaninsa vai ei. Käytetty perusta on kuitenkin herkkä tekoälyn arvioimiseksi, koska yhden käyttäjän käsitys riippuu liian monista ympäröivään ympäristöön liittyvistä tekijöistä, joita ei yleensä vahvisteta.
Vuonna 1954 Georgetown-IBM-kokeilu , jonka Georgetownin yliopisto ja IBM- yritys tekivät yhdessä , sisälsi yli 60 romanisoidun venäläisen lauseen täysin automaattisen käännöksen englanniksi, jotka liittyvät politiikan, lain, matematiikan ja tieteen aloihin. Kirjoittajat väittävät, että konekäännös ei enää ole ongelma 3-5 vuoden sisällä. Vaikuttaa kuitenkin siltä, että venäjänkieliset lausunnot valittiin huolella ja että monet mielenosoitukseen suoritetuista toimenpiteistä sovitettiin tiettyihin sanoihin ja lauseisiin. Lisäksi lauseiden rakenteen tunnistamiseksi ei ole relaatio- tai syntaktianalyysiä. Käytetty menetelmä on olennaisesti sanakirja, joka perustuu sanakirjaan, jossa tietty sana liittyy tiettyihin sääntöihin ja menettelyihin.
Turingin käyttöön ottamat käsitteet antoivat Joseph Weizenbaumille mahdollisuuden kehittää vuosina 1964–1966 ensimmäinen keskusteluautomaatti, joka petti ihmisen olemuksen suhteen. Rogerian psykoterapeutin simulointi , Automaatti ELIZA- nimellä , vaikka siinä ei käytetä melkein mitään tietoa ihmisen ajattelusta tai tunteista, onnistuu joskus luomaan yllättävän samanlaisen vuorovaikutuksen kuin ihmisen vuorovaikutus. Joten, kun "potilas" ylittää tietopohjan heikot kapasiteetit, ELIZA voi tarjota yleisen vastauksen, kuten "Miksi sanot, että sinulla on päänsärkyä? »Vastauksena« Minulla on päänsärky ».
MIT-tutkija Terry Winograd kehitti 1960-luvun loppupuolella luonnollisen kielen ohjelman nimeltä SHRDLU (lausutaan "chreudeul"), jonka avulla käyttäjä voi keskustella tietokoneen kanssa "kuutioiden rakennusmaailman" ( lohkojen maailman ) hallitsemiseksi. yhdellä ensimmäisistä näytöistä. Se on ensimmäinen ohjelma, joka pystyy ymmärtämään ja toteuttamaan monimutkaisia tilauksia luonnollisella kielellä. Mutta ainoa toiminto, jonka hän voi tehdä, on ottaa kuutiot, siirtää niitä, kerätä ne tai sirotella. Hän ei koskaan pysty ymmärtämään kaikkea, mitä ihmiset voivat tehdä fyysisten esineiden kanssa.
Todellinen edistyminen on siis pettymys. ALPAC (in) 1966 -raportissa todetaan, että kymmenen vuoden tutkimustavoitteita ei ole saavutettu. Tämä tietoisuus kielten äärimmäisestä monimutkaisuudesta on vähentänyt huomattavasti tutkimuksen tavoitetta.
1970-luvulla monet ohjelmoijat alkoivat kirjoittaa "käsitteellisiä ontologioita", joiden tarkoituksena oli rakentaa tieto tietokoneen ymmärrettäväksi dataksi. Näin ovat MARGIE (Schank, 1975), SAM (Cullingford, 1978), PAM (Wilensky, 1978), TaleSpin (Meehan, 1976), SCRUPULE (Lehnert, 1977), Politiikka (Carbonell, 1979), Tonttiyksiköt ( Lehnert 1981).
Sisään tammikuu 2018, Microsoftin ja Alibaban kehittämät tekoälymallit puolestaan voittavat ihmisiä Stanfordin yliopiston luku- ja ymmärtämistesteissä . Luonnollinen kielenkäsittely jäljittelee ihmisten ymmärrystä sanoista ja lauseista ja antaa nyt koneoppimismallien käsitellä suuria määriä tietoa ennen kuin antaa tarkkoja vastauksia niihin esitettyihin kysymyksiin.
Sisään marraskuu 2018, Google lanseeraa BERT- kielimallin.
Sisään Toukokuu 2020, OpenAI , perustama yhtiö Elon Musk ja Sam Altman , ilmoittaa käynnistää GPT-3 , joka on 175000000000 parametri Kielimalli vapautuu haarukka on kaupallista API .
Luonnollisen kielenkäsittelyn tilastollinen käyttö perustuu stokastisiin , todennäköisyysperusteisiin tai yksinkertaisesti tilastollisiin menetelmiin eräiden edellä mainittujen ongelmien ratkaisemiseksi, etenkin ne, jotka syntyvät, koska hyvin pitkät lauseet ovat erittäin epäselviä, kun niitä käsitellään realistisilla kieliopilla, mikä mahdollistaa tuhansien tai miljoonien mahdollisten analyysien tekemisen. Selvitysmenetelmiin liittyy usein ruumiiden ja virallistamisvälineiden, kuten Markov-mallien, käyttö . Tilastollinen NLP sisältää kaikki kvantitatiiviset lähestymistavat automaattiseen kielenkäsittelyyn, mukaan lukien mallinnus, informaatioteoria ja lineaarinen algebra . Tilastollisen NLP-tekniikka tulee ensisijaisesti koneoppimisesta ja tiedonlouhinnasta , johon sisältyy oppiminen tekoälystä peräisin olevista tiedoista .
Automaattisen luonnollisen kielen prosessointi kattaa suuren määrän tutkimusaloja, jotka voivat soveltaa yhtä monipuolisia taitoja kuin sovellettu matematiikka tai signaalinkäsittely.
Bibliometriikka on käyttää luonnollisen kielen käsittely tieteellisiä julkaisuja.
Bibliometrinen tutkimus luonnollisen kielen automaattisesta käsittelystäEnsimmäinen merkittävä tutkimus tehtiin vuonna 2013 Laskennallisen kielitieteen liiton (ACL) vuosipäivän kunniaksi seminaarilla, jonka aiheena oli 50 vuoden löydösten löytäminen uudelleen luonnollisen kielen prosessoinnissa. Löydöt luonnollisen kielen prosessoinnissa ”).
Samana vuonna tapahtui toiminta Luonnollisen kielen käsittely luonnollisen kielen käsittelyä varten (NLP4NLP), jossa keskityttiin automaattisten luonnollisten kielten käsittelytyökalujen käyttöön automaattisen luonnollisen kielen käsittelyn arkistoissa 1960-luvulta nykypäivään. Kyse oli siitä, että määritetään automaattisesti, ketkä ovat nykyisin käyttämiemme teknisten termien keksijät.
Toinen tutkimusalue on määritellä kaikki leikkaukset ja liimat, jotka luonnollisen kielen käsittelyn tutkijat suorittavat kirjoittaessaan tieteellistä paperia.
Täydellinen synteesi NLP4NLP-työstä julkaistiin vuonna 2019 Frontiers in Research Metrics and Analytics -lehden kaksoisnumerona, jotta voidaan kuvata kvantitatiivisesti useita näkökohtia, kuten naisten osuus (miehiin verrattuna), avustavien tekijöiden määrä, evoluutio oppiaineiden jne. .