|
Ilmaisun "ajoneuvo" semanttinen ympäristö, joka on otettu Kansallisen opetusministeriön toimittamasta Motbis-sanastosta |
Sanasto , avainsana sanasto tai dokumentti sanasto , on järjestetty lista ohjata ja standardoitu ehdot (kuvaajat ja ei-kuvaajat) edustaa käsitteet verkkotunnuksen tietoa.
Se on hallittu kieli, jota käytetään asiakirjojen indeksointiin ja dokumenttiresurssien etsimiseen erikoistuneissa tietokonesovelluksissa. Tesaurukset ovat siis yksi dokumenttikielien luokka muun muassa. Termit (esimerkissä päinvastoin: ajoneuvo , alus jne.) Yhdistetään toisiinsa synonyymien (vastaava termi), hierarkian (yleinen termi ja erityinen termi) ja assosiaation (liitetty termi) suhde; kukin termi kuuluu luokkaan tai verkkotunnukseen.
Sanasto on kielellinen työkalu, joka mahdollistaa esittää suhteessa luonnollisen kielen käyttäjien ja sen määrä on resursseja. Tämä tekniikka ylittää luonnollisen kielen rajat, joka on hyvin rikas, mutta myös usein epäselvä. Tesaurus välttää siten synonyymien , homonyymien ja polysemioiden aiheuttamat riskit luonnollisella kielellä. Toisin kuin sanakirjassa, johon sitä usein verrataan, tesaurus tarjoaa vain satunnaiset määritelmät , termien suhteet ja niiden valinta ovat etusijalla merkitysten kuvaamiseen nähden.
Esimerkiksi sanasto linkittää sato on sato , vehnä vuonna viljaa , ja Ranska vuonna Euroopassa , mahdollistaa kysymys on sato ja vehnän vuonna Ranskassa löytää resursseja indeksoitu kasvaa viljaa Eurooppaan .
Dokumentaariset tesaurukset ovat eräänlainen tesaurus, joka noudattaa 1970-luvulta lähtien kansainvälisessä ISO-standardissa vahvistettuja rakennusperiaatteita, jonka viimeisin painos julkaistiin vuonna 2011. Standardien ja erikoistuneiden tietokonesovellusten, kuten viereisen ontologia-alan , kehittäminen asioiden (resurssit, hierarkia, uudelleenkäyttö jne.) lähentyminen on tuonut dokumentti-sanastot lähemmäksi ontologioita .
Sanasto tarkoittaa latinaksi "kokoelma, hakemisto". Se synnytti sanakirjaan sanasto Linguae latinae of Robert Estienne ja tyyppi rakenne, joka on nimeltään sanasto , vaikka erillisiä dokumentteja ja leksikografisessa sanasto sanasto.
Dokumentaaristen sanakirjojen merkitys on noussut tietokoneistamisen myötä 1990-luvulta lähtien. Se on etuoikeutettu hakujärjestelmä erityisesti Boolen operaattoreiden käytön ansiosta, mikä mahdollistaa loogisten hakuyhtälöiden luomisen.
Kolme kirjoitusasuja sanasto , sanasto ja omat hyväksyy sanakirjat: ensimmäinen on xenism joka vie Latinalaisen muodossa suoraan, toinen on osittainen francization ja näyttää yleisin kirjallisuudessa, viimeinen on Ranskan muodossa. Latinalaisen monikon tesaurusta käytetään joskus, mutta se on vanhentuneen muodon tai anglikismin ( englannin kieli monikielisen latinan kanssa). Johdonmukaisuus haluaa meidän kirjoittavan joko tesaurus, tesaurus tai tesaurus, tesaurus tai aarre, aarteet .
Tämä uusi työkalu dokumentoinnissa ja informaatiotieteissä (englanninkielinen tiedonhaku ), joka on tarkoitettu manuaaliseen tai automaattiseen indeksointiin ja sitten asiakirjojen paikantamiseen, ilmestyi toisen maailmansodan jälkeen . Sana sanasto käytettiin kirjallisuudessa koska Thesaurus of Peter Mark Rodget ( Roget n sanasto Englanti sanat ja lauseet - 1852) oli Englanti sanakirja synonyymejä ja niihin liittyvät termit, järjesti systemaattisesti, eli sanakirjamaisia sanasto . Sodan jälkeen eli peräisin 1947, kehittäminen tieteen ja teknologian vaadittavat asiakirjat uusia tutkimusvälineitä ja välillä 1947 ja 1957 johti suuri kansainvälinen nykyisen teoreettisen tutkimuksen tiedot tutkimus- ja dokumentti luokituksia. .
Peter Luhn sekä Bernier ja Crane Yhdysvalloissa väittävät kumpikin avainsanojen, termien tai käsitteiden dokumenttisanaston tekijänoikeuden. Hélène - Louise Brownson ( Vannevar Bushin sihteeri ) käytti tätä sanaa, josta on tullut muodikasta kaikessa sanavarastojen (hallitun kielen) tekemisessä, julkisesti dokumentaatiossa kymmenen vuoden konferenssin teoreettisen tutkimuksen jälkeen . De Dorking in nämä termit: " samankaltaisten merkitysten verkkoihin perustuvan mekanisoidun sanaston käyttö " .
Sanasto on erityinen dokumentti kieltä. Se koostuu jäsennellystä käsitteistä, joita edustaa termit, joita voidaan käyttää asiakirjojen indeksointiin bibliografisessa tietokannassa tai dokumentointikeskuksen luettelossa dokumenttitutkimuksia varten. Sanaston käyttö mahdollistaa luonnollisen kielen puutteiden poistamisen indeksointia varten. Luonnollinen kieli - tai jokapäiväinen kielemme - sisältää monia polysemian ja synonyymien huolenaiheita. Sanasto on yhdistelmähakemistotyökalu, jolla on hallittu sanasto, toisin sanoen että sen muodostavat termit valitaan ja niitä ei voida muokata (paitsi päivitysten aikana). Se on jälkikoordinoitua, koska käsitteiden määrittelevät kuvaimet voidaan yhdistää tai liittää jälkikäteen tiedonhakuun. Indeksointi dokumenttikielellä tesauruksen ansiosta mahdollistaa indeksointimoodin homogeenisuuden, joka ei enää riipu indeksoijan kulttuurista. Sanasto on käytetty sen tulon ja lähdön yhteydessä dokumentti ketjun, eli aikana indeksoinnin vaiheessa ja siinä vaiheessa kuulustelujen käyttäjä. Kyky tehdä hakuja sanaston kautta on tärkeä, koska jälkimmäinen käyttää yhdistelmäkieliä, joka yhdistää ja ristii hakusanat optimoidakseen tulosten laadun.
Kolmen tyyppiset termit muodostavat sanaston:
Sähköisen luettelon tai bibliografisen tietokannan käyttäjälle tesaurus voi olla tutkimusväline. Lisäksi tutkimuksia on erilaisia. Voimme siirtyä hierarkkiseen hakuun, joka koostuu tesauruksen selaamisesta seuraamalla sen puurakennetta: siirrymme yleisimmistä tarkimpiin. Hakua on myös termeillä. Aloitamme termeillä selaamaan loppusanastoa
Sanastolla on kaksoisorganisaatio : käsitteiden (ts. Semanttisen suhteen) ja näitä käsitteitä edustavien termien (eli ekvivalenssisuhteen) välillä.
Käsitteiden väliset suhteet ovat erityyppisiä:
On tärkeää huomata, että ISO 25964: n perusmallissa assosiaatiosuhteet ovat vastavuoroisia. Täten lintua ja ornitologiaa yhdistävä suhde on symmetrinen ja voimassa molempiin suuntiin. Standardi tarjoaa kuitenkin mahdollisuuden erikoistua näihin suhteisiin, jotta ne eivät ole symmetrisiä, kuten SYY / VAIKUTUS-suhteen yhteydessä (ISO 25964-1 -standardin kohta 10.4). SKOS ei aseta symmetrian vastavuoroisuutta assosiatiiviselle suhteelle: assosiatiiviset suhteet voivat siten olla symmetrisiä, ei-symmetrisiä tai antisymmetrisiä.
Ekvivalenssirelaatiot väliset ehdot edustavat samaa konseptia voidaan taistella useita merkityksiä. Uusi ISO 25964-1: 2011 -standardi nimittää kaikkien termien joukosta, jotka voivat edustaa samaa käsitettä: etuoikeutettu termi (deskriptori) ja ei-etuuskohtelun termit (ei-deskriptorit), käsitteen yksiselitteisyyden perusta. Tätä suhdetta edustaa lyhenne EP (lyhenne sanoista “Employee For”). Ei-etuuskohtelun ehtojen käänteistä suhdetta etuoikeutettuun termiin edustaa lyhenne EM (lyhenne sanoista "työnantaja")
Nämä ovat muunnelmia erityistermeistä ( synonyymi tai näennäissynonyymi), joita pidetään "vastaavina" jokapäiväisessä kielessä, tai termejä, jotka edustavat käsitteitä, jotka ovat riittävän lähellä, jotta niitä voidaan pitää "vastaavina" tiedonsaantijärjestelmässä.
Tähän rakenteeseen voidaan lisätä erityyppisiä suhteita, otsikoita tai muita määritteitä sanaston rikastamiseksi tai sen käytön parantamiseksi. Voimme mainita erityisesti erityyppisiä muistiinpanoja: käyttää muistiinpanoja (tai selittäviä tai sovellushuomautuksia), jotka määrittelevät tai selventävät käsitteen semanttisen kehän, määritelmähuomautuksia, esimiehille hyödyllisiä muistiinpanoja jne. On myös mahdollista tarjota käsitteitä "kielellisiä ekvivalentteja" monikielisille tesauruslajeille sekä siltoja muiden saman tesaurojen kanssa samalla tai eri aloilla.
Asiasanastoa kehitetään, joko manuaalisesti yksi henkilö tai useampia, kiitos ihmisen älykkyys (kehittämällä sanasto 3000 kuvausten yksi henkilö voi kestää kuusi ja kahdeksan kuukautta), tai automaattisesti, kautta tekoälyä, kiitos automaattinen sanasto rakennusohjelmisto, kuten SATO ( Computer Text Analysis System), tai ihmisen ja automaattisen lähestymistavan sekoitus. Automaattiset tekstinkäsittelyjärjestelmät (automaattinen indeksointi) mahdollistavat yleisimpien termien poimimisen korpusesta ja helpottavat jossain määrin niiden semanttisten suhteiden syntymistä. Tämä tieto-ohjelmisto käyttää myös kielityökaluja morfoleksiseen ja syntaktiseen tunnistamiseen. G. Saltonin mukaan Luhn ja Mooers harkitsivat ensimmäisinä hakemistojen korvaamista koneella ja ihmisen älykkyyttä tekoälyllä esimerkiksi analysoimalla avainsanojen tiheyttä (CRANFIELD II, SMART Information Retrieval System, relevance, merkitys), joka johti automaattisen sanaston luomiseen, esimerkiksi NCI_Metathesaurus, IBM THESAUT-TP: n (esim. sanaston automaattinen luominen profiileista tai dokumenttikysymyksistä) kaltaisten erikoistuneiden ohjelmistojen ansiosta, joka on kielellisen käsittelyohjelmisto kyselyapuun tai TLS: ään ( Tesaurus ja kielijärjestelmä), joka yhdessä THES-ohjelman kanssa mahdollistaa tesaurojen luomisen ja kuulemisen rikastuttaa kysymystä. Sen jälkeen se on linkitettävä asiakirjojen automaattiseen indeksointiin . Se on hallittu sanasto, koska se johtuu pitkästä prosessista tietyssä kentässä käytettyjen sanojen, nimien ja ilmaisujen lajittelussa. Se on käytännöllinen ja jatkuva prosessi kuvaavien termien järkeistämiseksi. Sanaston rakentaminen on kolme tapaa:
Näillä menetelmillä on joskus muita nimiä, kuten "stalaktiittinen" ja "stalagmitinen" menetelmä (D. Sörgel). Jotta kyseinen toimialue sopisi parhaiten, termit kartoitetaan, verrataan, asetetaan toisiinsa ja lopulta hierarkisoidaan vastaamaan toimialueen olennaisia piirteitä. Tämä hierarkia perustuu typologiaan : kukin termi kuuluu luokkaan, joka sijoittaa sen suhteessa kaikkiin muihin valittuihin termeihin ja joka asettaa tällä tavalla prioriteettinsa käyttöön. Termien hierarkia voi olla melko erilainen sanaston mukaan, ja siihen voi jopa liittyä epäjohdonmukaisuutta saman tesauruksen yhdessä tai toisessa käytössä.
Lopuksi, alkaen korkeimmalta tasolta ja vastaamalla tesauruksen alueelle, löydämme ensin tärkeimmät alajaotteet, jotka edustavat toimialueen komponentteja - alajaotteita, joita usein kutsutaan mikrotesauruksiksi . Esimerkki tesauruksesta, joka koostuu joukosta mikrotesauruksia, sitten kullekin osa-alueelle, kuvaajaille ominainen hierarkia. Nuolikaavioilla varustetussa tesaurossa (esim. Management Thesaurus) on semanttisissa kentissä rakenne , joista kukin muodostaa joukon 30-40 kuvaajaa, jotka määritellään ruudukon keskelle sijoitetulla otsikkoavainsanalla. Sanasto voi myös liittyä useaan kenttään, kuten makrotesaurus (esimerkki: OECD-tesaurus). Alakohtainen sanasto on erikoistunut yhdelle tietylle osa-alueelle (esimerkki: Harjoittelu-tesaurus).
Tesauruksen hierarkiassa on aina mielivaltainen ulottuvuus joko termien valinnassa tai niiden hierarkkisessa asemassa.
Tesaurusten kehittämiselle on olemassa eri standardit. (Lue myös ADBS: n Documentalist-katsauksen erikoisnumero .)
Tämä viimeisteltävä standardiluonnos korvaa kaksi entistä standardia: ISO 2788-1986: Ohjekirjat yksikielisen sanaston käyttöönotolle ja kehittämiselle ja ISO 5964-1985: Ohjaavat periaatteet monikielisten tesaurusten perustamiselle ja kehittämiselle.
Harkitse mikrotesauruksen pääkohtia yhteistyötietojärjestelmässä:
Yksilöt- osio koostuu esimerkiksi:
Mahdollisesta panoksesta vastaava henkilö voidaan siten määrittää vähintään yhdellä kuvaavalla termillä, joka valitaan tarpeen mukaan viiden erityisehdon (TS) tai kolmen yleisnimen (TG) joukosta. Termejä (EP) vältetään periaatteessa indeksoinnissa, mutta niitä voidaan käyttää myöhemmin tietyn tyyppisen avustuksen yksinomaiseen hyödyntämiseen käyttämättä tiukasti alkuperäiseen kuvaukseen liittyviä termejä.
Riippumatta sen välineestä, sanasto käyttää yleensä termiensä aakkosjärjestystä; ensimmäinen vaihe ennen hierarkkisten suhteiden esittelyä. Täten käyttäjä voi ensin olla hämmentynyt siitä, että termiä ei ole luettelossa, kun taas toinen sanaston käyttötapa paljastaa hänelle, että tämä termi todellakin otetaan huomioon, mutta etuoikeustermin vastaavuussuhteen ansiosta. Kaaviot ja esitykset mahdollistavat monimutkaisemman tutkimuksen.
Sanaston käyttö tai tutkiminen voidaan yleensä tehdä käyttämällä erilaisia esitystapoja:
Näistä luetteloista löytyy symboli MT, joka ilmaisee mikrotesauruksen, johon termi kuuluu. Mikrotesaurus on erityinen semanttinen kenttä, jonka avulla on mahdollista tutustua kaikkiin asiaan liittyviin termeihin asiakirjan indeksoinnin aikana.
Esityksiä on useita:
mutta silti :
Graafinen sanasto kehittyy edelleen verkko- ja tietokoneliitäntöjen ansiosta. Järjestelmät sähköisten dokumenttien hallinnan (EDM) kaikilla on hallinta moduuli ja integroitu toiminta sanasto.
Kuvaajiin liittyvät määritelmät ( täsmennystapaukset ), käyttäjän tai editorin avustavat muistiinpanot (ilmoitukset), kaikenlaiset linkit jne.
Ensimmäinen toiminnallinen sanasto on kemiallisten termien sanasto vuonna 1959, teknisten sanojen tesaurus ( EIDuPont de Nemours and Co. of Engineering Information Centre. ASTIA-sanasto descriptors enToukokuu 1960jonka on luonut asevoimien tekninen tiedotusvirasto (nykyinen puolustusasiakirjat) Calvin Mooers -menetelmän mukaisilla käsitteillä, toisin sanoen "kuvaimet", indeksoitavaksi ehdotetut sanat tai sanaryhmät, jotka sulautuivat teknisten sanojen tesaurukseen, Engineers Joint Council rakensi vuonna 1964 muodostamaan TEST-sanaston vuonna 1967. Vuonna 1961 ilmestyi kemian tekniikan sanasto , jonka kehitti American Institute of Chemical Engineers (AIChE). Siksi dokumentti-tesaurusta kutsuttiin myös nimellä "descriptor thesaurus" (G. Van Slype). Van Dijk toimisto erikoistunut asiasanastoista nuolella kaavioita, joissa graafinen esitys, jossa terminograms kuten Euratomin sanasto, ensimmäinen eurooppalainen sanasto ja tesaurukset puita kanssa polygoneja tai pyöreitä kaavioiden (tai samankeskiset ympyrät), kuten Alankomaiden armeijan vuonna 1964, TDCK Circular Thesaurus System. Ensimmäinen ranskalainen tesaurus, jolla on tämä nimi, olisi CEDOCAR- aseistussanasto . Tesaurusten kukinta on peräisin 1970-luvulta tieteen ja tekniikan aloilla. Jo 1960-luvulla ilmestyivät tesaurusten rakentamista käsittelevät symposiumit (Symposium on Thesaurus Building, Oslo, Norway (1965)), joita tänään kutsutaan työpajoiksi (Building Taxonomies for Information Retrieval: A Hands-On Workshop, 2005, ASIS). Brian Vickeryn mukaan tämä sana ryhmitellään sitten vähintään neljä erilaista merkitystä saman sanan alle. Näkyviin tulevat kansalliset ja kansainväliset bibliografiat ja tesaurushakemistot, jotka on joko ASLIB: n tai Ranskan Ranskan kirjastojen tiedote (BBF) -luettelossa. Tesaurukset on luetteloitu. erilaisia hakemistoja, kuten:
Sanasto keksittiin tarkoituksena indeksoida ja sitten etsiä asiakirjoja. Vuonna 1971 UNESCO laati ohjeet monikielisille tesauruksille. Hyvin nopeasti, vuosina 1972/74, sanasto standardisoitiin (kansalliset AFNOR Z 47-100 ja kansainväliset ISO 2788 -standardit ) Länsi-Berliinissä vuonna 1973 järjestetyn symposiumin jälkeen UNISISTin, ISO: n ja Unescon kanssa.Toukokuu 1976joka johtaa Monikielinen tesaurus perustamisopas -projektiin . Sen jälkeen kun uudet anglosaksistandardit julkaistiin vuonna 2005 (ANSI / NISO Z39.19 ja BS 8723), tämän ISO-standardin uusi versio, jossa yhdistettiin yksi- ja monikieliset versiot, ilmestyi luonnoksenalokakuu 2009.
”♦ LING. (sanakirja). "Tyhjentävyyteen tähtäävän kielen leksikaalisten yksiköiden luettelo" (Mounin 1974); tieteellisten teosten nimi, mukaan lukien sanakirjat ja tietosanakirjat. Kreikan kielen aarre; Latinan kielen aarre; Ranskan kielen aarre; Félibrigen aarre . "
Tärkeimmät lähteet:
Muut:
Lue myös: Historialliset tutkimukset tietojenkäsittelyssä - kirjoittanut Trudi Bellardo Hahn, Michael Keeble Buckland Google-kirjoissa