Lexical Markup Framework (LMF) on Kansainvälisen standardointijärjestön standardi (tarkemmin sanottuna ISO / TC37) automaattisen kielenkäsittelyn (NLP) sanastoille . Tavoitteena on standardoida kieliresursseihin liittyvät periaatteet ja menetelmät monikielisen viestinnän ja kulttuurisen monimuotoisuuden yhteydessä .
Tavoitteena on tarjota yhteinen malli kieliresurssien luomiselle ja käytölle, hallita näiden resurssien välistä tiedonvaihtoa ja sallia suuren määrän sähköisten resurssien fuusioituminen muodostaakseen laajan kielikuvausverkon.
LMF-instantioinnin erityyppiset tyypit voivat sisältää sekä yksikielisiä , kaksikielisiä että monikielisiä resursseja . Sama vaatimuksia sovelletaan pienille ja suurille sanastoja , yksinkertaisia ja monimutkaisia rakenteita, sillä leksikaalisen resursseja molempien kirjoitettu ja puhuttu . Kuvaukset kattavat morfologian , syntaksin , semantiikan sekä monikieliset merkinnät. Kohdekielet eivät rajoitu eurooppalaisiin kieliin, mutta ne kattavat kaikki luonnolliset kielet . LMF pystyy edustamaan useimpia sanakirjoja, mukaan lukien WordNet , EDR ja PAROLE.
Aikaisemmin standardointia on tutkittu ja toteutettu sellaisissa hankkeissa kuin GENELEX, EDR, EAGLES, MULTEXT, PAROLE, SIMPLE ja ISLE. Sitten ISO / TC37 valtuuskunnat päättivät työtä standardeja varten NLP ja leksikaalisen esityksiä. LMF-projekti alkoi kesällä 2003 Yhdysvaltojen valtuuskunnan ehdotuksella uudeksi teokseksi (eli uusi työehdotus) sähköisistä sanastoista yleensä. Syksyn 2003 aikana Ranskan valtuuskunta esitti AFNORin avulla teknisen ehdotuksen, joka oli tarkoitettu erityisesti TAL-sanastoille. Vuoden 2004 alussa ISO / TC37-komitea päätti muodostaa yhteisen ISO-projektin Nicoletta Calzolarin ( CNR -ILC Italia) välittäjänä, Gil Francopoulon ( Ranska Tagmatica ) ja Monte Georgein ( ANSI USA) toimittajana.
Ensimmäinen askel oli kerätä tunnetuimpien sanakirjojen kuvaukset ja sitten luoda yhteinen terminologia näille erilaisille sanastoille. Seuraava vaihe oli suunnitella malli, joka pystyy edustamaan näitä sanakirjoja yksityiskohtaisesti. Toimittajat ja 60 asiantuntijan ryhmä auttoivat tätä tehtävää kehittämään konsensusmallin. Erityistä huomiota on kiinnitetty morfologiaan, jotta voidaan luoda tehokkaita laitteita kattamaan kielet, joiden tiedetään olevan vaikeita. Kolmetoista erittelyasiakirjaa kirjoitettiin, jaettiin (kansallisten valtuuskuntien nimeämille asiantuntijoille), kommentoitiin ja keskusteltiin. Viiden vuoden työn jälkeen, mukaan lukien monet henkilökohtaiset tapaamiset ja paljon sähköposteja, toimittajat pääsivät yhtenäiseen UML-malliin.
Yhteenvetona voidaan todeta, että LMF: ää voidaan todella pitää tekniikan tasona automaattisissa kielenkäsittelyleksikoissa.
ISO-nimellisarvo on 24613. LMF- eritelmäasiakirja julkaistiin virallisesti17. marraskuuta 2008.
ISO / TC37-standardeja kehitetään parhaillaan korkean tason spesifikaatioina, ja ne käsittelevät sanojen segmentointia (ISO 24614), merkintöjä (ISO 24611 alias MAF, ISO 24612 alias LAF, ISO 24615 alias SynAF ja ISO 24617 -1 alias SemAF / Time), riviä rakenteet (ISO 24610), multimediasäiliöt (ISO 24616 alias MLIF) ja sanakirjat (ISO 24613). Nämä standardit perustuvat matalatasoisiin eritelmiin, jotka on omistettu vakioille, kuten tietoluokille (ISO 12620: n tarkistus), kielikoodeille ( ISO 639 ), komentosarjakoodeille ( ISO 15924 ), maakoodeille ( ISO 3166 ) ja Unicodeille ( ISO / IEC 10646). ).
Tämä kaksitasoinen organisaatio muodostaa yhtenäisen standardiperheen seuraavien sääntöjen mukaisesti:
Kielivakioita, kuten / naisellinen / tai / transitiivinen /, ei ole määritelty LMF: ssä, mutta ne tallennetaan tietoluokkien rekisteriin (Data Category Registry tai DCR, englanniksi), jota ISO / TC37 hallinnoi globaalina resurssina ISO: n mukaisesti. / IEC 11179-3: 2003 hal.inria.fr . Ja näitä vakioita käytetään koristamaan korkean tason rakenneosia.
LMF-määrittely noudattaa objektinhallintaryhmän (OMG) määrittelemää yhtenäisen mallinnuskielen (LMU) mallintamisperiaatteita . Rakenne on määritelty avulla LMU luokan kaavioita . Esimerkit esitetään LMU-ilmentymien (tai objektien) kaavioilla.
Lisätään, että XML DTD sisältyy LMF-asiakirjan liitteeseen.
LMF koostuu seuraavista komponenteista:
Laajennukset on omistettu erityisesti morfologialle, MRD: lle, syntaksille NLP: ssä, semantiikalle NLP: ssä, monikielisille merkinnöille, paradigmamalleille, monisanaisille lausekkeille ja rajoitusten ilmaisumalleille.
Seuraavassa esimerkissä, leksikaalisen merkintä liittyy pappi lemman ja kaksi taivutettu muotoja clergyman ja papit . Kielikoodaus tehdään koko leksikaaliselle resurssille. Valittu arvo määritetään koko sanastolle seuraavan UML-ilmentymäkaavion mukaisesti:
Leksikaalinen Resource , Global Information , Lexicon , Leksikaalinen Entry , Lemma ja Word-lomakkeen elementtejä määrittelevät rakenteen sanaston. Ne on määritelty LMF-asiakirjassa. Päinvastoin, languageCoding , language , partOfSpeech , commonNoun , writtenForm , grammaticalNumber , singular , plural ovat tietoluokkia, jotka otetaan tietoluokkien rekisteristä. Nämä merkit koristavat rakennetta. ISO 639-3 , pappimies , pappien arvot ovat raakajonoja. Arvo eng otetaan ISO 639-3: n määrittelemästä kieliluettelosta.
Joitakin lisätietoja, kuten dtdVersion ja feat , samat tiedot voidaan ilmaista seuraavalla XML- fragmentilla :
<LexicalResource dtdVersion="15"> <GlobalInformation> <feat att="languageCoding" val="ISO 639-3"/> </GlobalInformation> <Lexicon> <feat att="language" val="eng"/> <LexicalEntry> <feat att="partOfSpeech" val="commonNoun"/> <Lemma> <feat att="writtenForm" val="clergyman"/> </Lemma> <WordForm> <feat att="writtenForm" val="clergyman"/> <feat att="grammaticalNumber" val="singular"/> </WordForm> <WordForm> <feat att="writtenForm" val="clergymen"/> <feat att="grammaticalNumber" val="plural"/> </WordForm> </LexicalEntry> </Lexicon> </LexicalResource>Tämä esimerkki on melko yksinkertainen. LMF pystyy edustamaan monimutkaisempia kielellisiä kuvauksia, mutta tässä tapauksessa XML-merkintä on monimutkaisempi.
Vuonna 2013 julkaistu englanninkielinen kirja LMF Lexical Markup Framework on omistettu kokonaan LMF: lle. Ensimmäinen luku käsittelee sanakirjamallien historiaa, toinen on muodollinen esitys mallista ja kolmas käsittelee suhdetta ISO-tietoluokarekisterin vakioihin. Kukin muu 14 lukua käsittelee sanakirjaa tai järjestelmää, sekä siviili- että sotilasalalla, sekä tieteellisessä tutkimuksessa että teollisissa sovelluksissa. Nämä ovat Wordnet-LMF, Prolmf, DUELME, UBY-LMF, LG-LMF, RELISH, GlobalAtlas ja Wordscape.
Ensimmäinen julkaisu LMF-spesifikaatioista, jotka ISO on ratifioinut (tästä artikkelista tuli (vuonna 2015) yhdeksäs yleisimmin mainittu artikkeli LREC: ssä LREC-artikkeleiden jälkeen).
Tietoja semanttisista esityksistä:
Tietoja monikielisistä yhteyksistä:
Tietoja afrikkalaisista kielistä:
Aasian kielistä:
Tietoja eurooppalaisista kielistä:
Semitiläiset kielet: