Lexical Markup Framework

Lexical Markup Framework (LMF) on Kansainvälisen standardointijärjestön standardi (tarkemmin sanottuna ISO / TC37) automaattisen kielenkäsittelyn (NLP) sanastoille . Tavoitteena on standardoida kieliresursseihin liittyvät periaatteet ja menetelmät monikielisen viestinnän ja kulttuurisen monimuotoisuuden yhteydessä .

LMF-tavoitteet

Tavoitteena on tarjota yhteinen malli kieliresurssien luomiselle ja käytölle, hallita näiden resurssien välistä tiedonvaihtoa ja sallia suuren määrän sähköisten resurssien fuusioituminen muodostaakseen laajan kielikuvausverkon.

LMF-instantioinnin erityyppiset tyypit voivat sisältää sekä yksikielisiä , kaksikielisiä että monikielisiä resursseja . Sama vaatimuksia sovelletaan pienille ja suurille sanastoja , yksinkertaisia ja monimutkaisia rakenteita, sillä leksikaalisen resursseja molempien kirjoitettu ja puhuttu . Kuvaukset kattavat morfologian , syntaksin , semantiikan sekä monikieliset merkinnät. Kohdekielet eivät rajoitu eurooppalaisiin kieliin, mutta ne kattavat kaikki luonnolliset kielet . LMF pystyy edustamaan useimpia sanakirjoja, mukaan lukien WordNet , EDR ja PAROLE.

LMF-projektin historia

Aikaisemmin standardointia on tutkittu ja toteutettu sellaisissa hankkeissa kuin GENELEX, EDR, EAGLES, MULTEXT, PAROLE, SIMPLE ja ISLE. Sitten ISO / TC37 valtuuskunnat päättivät työtä standardeja varten NLP ja leksikaalisen esityksiä. LMF-projekti alkoi kesällä 2003 Yhdysvaltojen valtuuskunnan ehdotuksella uudeksi teokseksi (eli uusi työehdotus) sähköisistä sanastoista yleensä. Syksyn 2003 aikana Ranskan valtuuskunta esitti AFNORin avulla teknisen ehdotuksen, joka oli tarkoitettu erityisesti TAL-sanastoille. Vuoden 2004 alussa ISO / TC37-komitea päätti muodostaa yhteisen ISO-projektin Nicoletta Calzolarin ( CNR -ILC Italia) välittäjänä, Gil Francopoulon ( Ranska Tagmatica ) ja Monte Georgein ( ANSI USA) toimittajana.

Ensimmäinen askel oli kerätä tunnetuimpien sanakirjojen kuvaukset ja sitten luoda yhteinen terminologia näille erilaisille sanastoille. Seuraava vaihe oli suunnitella malli, joka pystyy edustamaan näitä sanakirjoja yksityiskohtaisesti. Toimittajat ja 60 asiantuntijan ryhmä auttoivat tätä tehtävää kehittämään konsensusmallin. Erityistä huomiota on kiinnitetty morfologiaan, jotta voidaan luoda tehokkaita laitteita kattamaan kielet, joiden tiedetään olevan vaikeita. Kolmetoista erittelyasiakirjaa kirjoitettiin, jaettiin (kansallisten valtuuskuntien nimeämille asiantuntijoille), kommentoitiin ja keskusteltiin. Viiden vuoden työn jälkeen, mukaan lukien monet henkilökohtaiset tapaamiset ja paljon sähköposteja, toimittajat pääsivät yhtenäiseen UML-malliin.

Yhteenvetona voidaan todeta, että LMF: ää voidaan todella pitää tekniikan tasona automaattisissa kielenkäsittelyleksikoissa.

Vuodesta 2008

ISO-nimellisarvo on 24613. LMF- eritelmäasiakirja julkaistiin virallisesti17. marraskuuta 2008.

LMF TC / 37-standardiperheen jäsenenä

ISO / TC37-standardeja kehitetään parhaillaan korkean tason spesifikaatioina, ja ne käsittelevät sanojen segmentointia (ISO 24614), merkintöjä (ISO 24611 alias MAF, ISO 24612 alias LAF, ISO 24615 alias SynAF ja ISO 24617 -1 alias SemAF / Time), riviä rakenteet (ISO 24610), multimediasäiliöt (ISO 24616 alias MLIF) ja sanakirjat (ISO 24613). Nämä standardit perustuvat matalatasoisiin eritelmiin, jotka on omistettu vakioille, kuten tietoluokille (ISO 12620: n tarkistus), kielikoodeille ( ISO 639 ), komentosarjakoodeille ( ISO 15924 ), maakoodeille ( ISO 3166 ) ja Unicodeille ( ISO / IEC 10646). ).

Tämä kaksitasoinen organisaatio muodostaa yhtenäisen standardiperheen seuraavien sääntöjen mukaisesti:

korkean tason eritelmä tarjoaa rakenteelliset elementit, jotka koristavat standardoidut vakiot,
matalan tason eritelmät tarjoavat vakioidut vakiot metatietojen muodossa.

LMF: n käyttämät tärkeät standardit

Kielivakioita, kuten / naisellinen / tai / transitiivinen /, ei ole määritelty LMF: ssä, mutta ne tallennetaan tietoluokkien rekisteriin (Data Category Registry tai DCR, englanniksi), jota ISO / TC37 hallinnoi globaalina resurssina ISO: n mukaisesti. / IEC 11179-3: 2003 hal.inria.fr . Ja näitä vakioita käytetään koristamaan korkean tason rakenneosia.

LMF-määrittely noudattaa objektinhallintaryhmän (OMG) määrittelemää yhtenäisen mallinnuskielen (LMU) mallintamisperiaatteita . Rakenne on määritelty avulla LMU luokan kaavioita . Esimerkit esitetään LMU-ilmentymien (tai objektien) kaavioilla.

Lisätään, että XML DTD sisältyy LMF-asiakirjan liitteeseen.

Mallirakenne

LMF koostuu seuraavista komponenteista:

Ytimen malli, joka on leksikaalisen merkinnän selkäranka,
laajennukset, jotka kuvaavat tiettyjä leksikaalisia resursseja uudelleenkäyttämällä ytimen komponentteja mahdollisesti lisävaatimuksilla.

Laajennukset on omistettu erityisesti morfologialle, MRD: lle, syntaksille NLP: ssä, semantiikalle NLP: ssä, monikielisille merkinnöille, paradigmamalleille, monisanaisille lausekkeille ja rajoitusten ilmaisumalleille.

Yksinkertainen esimerkki

Seuraavassa esimerkissä, leksikaalisen merkintä liittyy pappi lemman ja kaksi taivutettu muotoja clergyman ja papit . Kielikoodaus tehdään koko leksikaaliselle resurssille. Valittu arvo määritetään koko sanastolle seuraavan UML-ilmentymäkaavion mukaisesti:

Leksikaalinen Resource , Global Information , Lexicon , Leksikaalinen Entry , Lemma ja Word-lomakkeen elementtejä määrittelevät rakenteen sanaston. Ne on määritelty LMF-asiakirjassa. Päinvastoin, languageCoding , language , partOfSpeech , commonNoun , writtenForm , grammaticalNumber , singular , plural ovat tietoluokkia, jotka otetaan tietoluokkien rekisteristä. Nämä merkit koristavat rakennetta. ISO 639-3 , pappimies , pappien arvot ovat raakajonoja. Arvo eng otetaan ISO 639-3: n määrittelemästä kieliluettelosta.

Joitakin lisätietoja, kuten dtdVersion ja feat , samat tiedot voidaan ilmaista seuraavalla XML- fragmentilla :

Tämä esimerkki on melko yksinkertainen. LMF pystyy edustamaan monimutkaisempia kielellisiä kuvauksia, mutta tässä tapauksessa XML-merkintä on monimutkaisempi.

Oma kirja

Vuonna 2013 julkaistu englanninkielinen kirja LMF Lexical Markup Framework on omistettu kokonaan LMF: lle. Ensimmäinen luku käsittelee sanakirjamallien historiaa, toinen on muodollinen esitys mallista ja kolmas käsittelee suhdetta ISO-tietoluokarekisterin vakioihin. Kukin muu 14 lukua käsittelee sanakirjaa tai järjestelmää, sekä siviili- että sotilasalalla, sekä tieteellisessä tutkimuksessa että teollisissa sovelluksissa. Nämä ovat Wordnet-LMF, Prolmf, DUELME, UBY-LMF, LG-LMF, RELISH, GlobalAtlas ja Wordscape.

Aiheeseen liittyvät artikkelit

Ulkoiset linkit

Web-sivustot

Jotkut viimeaikaiset tieteelliset viestit LMF: stä

Ensimmäinen julkaisu LMF-spesifikaatioista, jotka ISO on ratifioinut (tästä artikkelista tuli (vuonna 2015) yhdeksäs yleisimmin mainittu artikkeli LREC: ssä LREC-artikkeleiden jälkeen).

Kieliresurssit ja arviointi LREC-2006 / Genova: Gil Francopoulo, Monte George, Nicoletta Calzolari, Monica Monachini, Nuria Bel, Mandy Pet, Claudia Soria: Lexical Markup Framework (LMF) [1]

Tietoja semanttisista esityksistä:

Gesellschaft für linguistische Datenverarbeitung GLDV-2007 / Tübingen: Gil Francopoulo, Nuria Bel, Monte George Nicoletta Calzolari, Monica Monachini, Mandy Pet, Claudia Soria: Lexical Markup Framework ISO -standardi semanttisille tiedoille NLP-sanastoissa [2] .

Tietoja monikielisistä yhteyksistä:

Kieliresurssit ja arviointi / Springer Verlag 2008 (DOI: 10.1007 / s10579-008-9077-5): Monikieliset resurssit NLP: lle leksikaalisten merkintöjen puitteissa (LMF).

Tietoja afrikkalaisista kielistä:

Luonnollisten kielten automaattinen käsittely, Marseille, 2014: Mouhamadou Khoule, Mouhamad Ndiankho Thiam, El Hadj Mamadou Nguer: Kohti LMF-pohjaisen Wolof-kielisanaston perustamista) [3]

Aasian kielistä:

Lexicography, Journal of ASIALEX, Springer 2014: Lexical Markup Framework: Gil Francopoulo, Chu-Ren Huang: ISO-standardi sähköisille sanastoille ja niiden vaikutuksille aasialaisille kielille DOI 10.1007 / s40607-014-0006-z

Tietoja eurooppalaisista kielistä:

COLING 2010: Verena Henrich, Erhard Hinrichs: Sanaverkkojen standardointi ISO-standardissa LMF: Wordnet-LMF GermaNetille [4]
AECL 2012: Judith Eckle-Kohler, Iryna Gurevych: Subcat-LMF: Alakategorointikehysten yhteentoimivuuden standardoidun muodon laatiminen [5]
AECL 2012: Iryna Gurevych, Judith Eckle-Kohler, Silvana Hartmann, Michael Matuschek, Christian M Meyer, Christian Wirth: UBY - LMF: hen perustuva laaja-alainen yhtenäinen leksikaalisemanttinen resurssi [6] .

Semitiläiset kielet:

Journal of Natural Language Engineering, Cambridge University Press (ilmestyy keväällä 2015): Aida Khemakhem, Bilel Gargouri, Abdelmajid Ben Hamadou, Gil Francopoulo: Ison arabiankielisen sanakirjan ISO-standardimallinnus.
Seitsemännen maailmanlaajuisen Wordnet-konferenssin 2014 käsittely: Nadia BM Karmani, Hsan Soussou, Adel M Alimi: Standardoidun Wordnet-verkon rakentaminen aeb-kielen ISO LMF: ssä [7] .
Seminaarin jatkaminen: HLT & NLP in Arabic World, LREC 2008: Noureddine Loukil, Kais Haddar, Abdelmajid Ben Hamadou: Kohti arabialaisten verbien syntaktista sanastoa [8] .
Luonnollisten kielten automaattinen käsittely, Toulouse 2007: Khemakhem, B Gargouri, A Abdelwahed, G Francopoulo: Arabialaisten verbien taivutusparadigmojen mallintaminen LMF-ISO 24613 -standardin mukaisesti [9] .

Jotkut asiaan liittyvät viestit

Kieliresurssit ja arviointi LREC-2006 / Genova: Standardien merkitys tutkimusinfrastruktuureille hal.inria.fr

Viitteet

Gil Francopoulo (toimittaja) LMF Lexical Markup Framework, ISTE / Wiley 2013 ( ISBN 978-1-84821-430-9 )