Unicode-ohjausmerkit

Monia Unicode- ohjausmerkkejä käytetään tekstin tulkinnan tai näyttämisen hallintaan, mutta näillä merkeillä itsessään ei ole visuaalista tai edes spatiaalista esitystä. Esimerkiksi null- merkkiä (( U + 0000 <control-0000> ) käyttää C-ohjelmointikieli merkkijonon lopun osoittamiseen.Täten ohjelmat tarvitsevat vain merkkijonon alun muistiosoitteen (eivätkä ne täytyy tietää sen pituus), koska merkkijono päättyy heti, kun ohjelma lukee tyhjän merkin.

ISO 6429 -tarkistusmerkit (C0 ja C1)

Ohjaus merkkiä U + 0000 U + 001F ja U + 007F tulevat ASCII . Ne, jotka ovat U + 0080 - U + 009F, tulevat ISO / IEC 8859 -standardista . Ne on määritelty standardissa ISO 6429, ja niihin viitataan usein ”C0- ja C1-ohjauskoodeina” (vastaavasti).

Suurimmalla osalla näistä merkeistä ei ole nimenomaista roolia Unicode-tekstin käsittelyssä. Merkit U + 0000 <control-0000> , U + 0009 <control-0009> (HT) , U + 000A <control-000A> (LF) , U + 000D <control-000D> (CR) ja U +0085 <control-0085> (CR + LF) käytetään yleisesti tekstinkäsittelyssä muotoilumerkkeinä.

Unicode esitteli erottimet

Yritetään yksinkertaistaa eri end-of-line-merkkiä ,  ISO / IEC 10646 (UCS) esittelee oman erotinmerkkiä rivejä ja kohdat: U + 2028 linja erotin ( HTML  : LSEP) &#8232; ja U + 2029 kohta erotin ( HTML  : PSEP) &#8233; . Näitä merkkejä käytetään vain tekstin muotoiluun, eivätkä ne ole merkkejä.

Kielen tunnistetunniste

Aiemmin Unicode sisälsi 128 merkkiä - nyt vanhentuneita - kielen tunnistamiseen. Nämä merkit ovat kopio suurimmasta osasta 128 ASCII-merkkiä, mutta niiden avulla voidaan tunnistaa niitä seuraava teksti tietyllä kielellä kirjoitettuna. Kielen tunnistava tarra noudattaa BCP 47: n suositusta  . Esimerkiksi sen osoittamiseksi, että teksti kirjoitetaan ranskaksi, kuten Belgiassa on käytetty, käytetään seuraavaa järjestystä: kielitunniste (U + E0001), merkki "pieni F-kielitunniste" (U + E0066), "kieli tarra, pienet R-merkit (U + E0072), "kieletarra, yhdysmerkki" -merkki (U + E002D), "kieletarra, pienet kirjaimet B" (U + E0062), merkit "kieletarra, pienet E" (U + E0065).

Näitä kielitunnuksia ei näytetä itse. Ne tarjoavat kuitenkin tietoja tekstinkäsittelyohjelmalle tai muiden merkkien näyttämistä varten. Esimerkiksi UniHan-ideogrammien näyttö voi korvata erilaiset kuviot riippuen siitä, merkitseekö kielitunniste koreaa vai japania. Toinen esimerkki: kielen tunnistaminen voi vaikuttaa numeroiden näyttöön (0-9).

Unicode-versio 5.1 (2008) julisti kaikki tarramerkit vanhentuneiksi ja kannustaa voimakkaasti niiden käyttöä.

Unicode-versio 8.0 (2015) poistaa U + E0020 - U + E007E -merkkien vanhentumisen. Merkit U + E0001 LANGUAGE TAG ja U + E007F CANCEL TAG ovat kuitenkin vanhentuneita. Tämä muutos tehtiin "tasoittamaan tietä etikettimerkkien tulevaan käyttöön muuhun tarkoitukseen kuin kielten tunnistamiseen". Unicode toteaa, että "tarramerkkien käyttö kielitunnisteiden esittämiseen pelkkässä tekstivirrassa on vanhentunut mekanismi tekstin kielen siirtämiseksi".

Interlineaarinen merkintä

Kolme muotoilumerkkiä mahdollistavat interleaarisen merkinnän (U + FFF9, U + FFFA, U + FFFB). Niiden avulla voidaan tehdä muistiinpanoja, jotka yleensä näytetään päätekstin rivien välissä. Unicode pitää näitä merkintöjä alustettuna tekstinä ja suosittelee toisen protokollan käyttämistä niiden edustamiseen. W3C: n suositus  Ruby-merkinnöille on esimerkki vaihtoehtoisesta protokollasta, jolla on edistyneemmät toiminnot.

Kaksisuuntainen tekstin hallinta

Unicode tukee tekstin vakiosuuntaisuutta ilman erikoismerkkejä. Toisin sanoen, Unicode-yhteensopivan ohjelmiston tulisi näyttää oikealta vasemmalle -merkit, kuten heprealaiset kirjaimet, yksinkertaisesti merkkien Unicode-ominaisuuksien perusteella. Samoin Unicode hallitsee tekstien "vasemmalta oikealle" ja "oikealta vasemmalle" sekoitusta käyttämättä erikoismerkkejä. Esimerkiksi voimme laittaa arabiankielisen lainauksen ("بسملة", ranskaksi käännetty "basmala") ranskankieliseen tekstiin, ja arabiankieliset kirjaimet näytetään oikealta vasemmalle, kun taas latinankieliset kirjaimet näytetään vasemmalta oikealle. Kaksisuuntaisten tekstien tuki monimutkaistuu kuitenkin, kun suunnanmuutokset ovat päällekkäisiä, esimerkiksi lainaus arabiaksi, joka itse lainaa lauseita ranskaksi. Muut tilanteet voivat myös vaikeuttaa tätä, kuten silloin, kun kirjoittaja haluaa pakottaa merkkien kirjoitussuunnan (kirjoita merkkejä oikealta vasemmalle, jotka kirjoitetaan yleensä vasemmalta oikealle). Vaikka nämä tilanteet ovat melko harvinaisia, Unicode tarjoaa 7 ohjausmerkkiä (U + 200E, U + 200F, U + 202A, U + 202B, U + 202C, U + 202D, U + 202E) jopa 61 kaksisuuntaisen pesinnän käsittelemiseksi. tekstit.

Vaihtoehtovalitsimet

Monet merkit edustavat vaihtoehtoisia kontekstista riippuvia kuvioita . Esimerkiksi arabian- ja latinankieliset kursiivimerkit korvaavat erilaiset kuviot yhdistääkseen ne niiden sijainnin mukaan sanassa (alku-, media-, lopullinen tai eristetty). Tämäntyyppiset glyfikorvaukset voidaan helposti käsitellä merkkikontekstissa ilman editoijatoimintaa. Se voi myös käyttää erityiskäyttöön tarkoitettuja merkkejä, kuten sitoutumista tai sitoutumista estävää (yleensä ei leveyttä) saadakseen voimakkaasti vaihtoehtoisen glyfin. Muut kuin ortografiset ligatuurit ovat samanlaisia ​​tapauksia, joissa kuviot voidaan korvata yksinkertaisesti ottamalla tämä muotoiltujen tekstimääritteiden ominaisuus käyttöön tai poistamalla se käytöstä.

Muissa glyfikorvaustapauksissa tekijän aikomus on ehkä kirjattava tekstiin, koska sitä ei voida määrittää asiayhteyteen. Tämä pätee kanji- merkkeihin,  joissa samalle merkille käytetään erilaisia ​​kuvioita joko historiallisesti tai sukunimien ideogrammeille. Tämä on yksi harmaista alueista erotettaessa kuviomerkki ja merkki. Jos sukunimi eroaa hieman ideogrammista, josta se on johdettu, se on vain yksinkertainen glyfimuunnos tai merkkimuunnos. Unicode 3.2: n ja 4.0: n jälkeen merkistö sisältää 256 muunnosvalitsinta, joten näiden yhdistävien merkkien avulla voit valita 256 mahdollisen merkin tai kuvion muunnelman edelliselle merkille.

Kontrollimerkkien kuvat

Unicode tarjoaa graafisia merkkejä, jotka edustavat ohjausmerkkejä, mukaan lukien C0-ohjausmerkit, Ohjauskuvat- lohkossa . Tämä on vain visuaalinen esitys todellisilla ohjausmerkeillä.

Viitteet

  1. "  RFC6082: Unicode-kielimerkkien merkkien poistaminen käytöstä: RFC 2482 on historiallinen  " , Internet Engineering Task Force (IETF),marraskuu 2010
  2. “  Unicode 8.0.0, vaikutukset siirtoon  ” , Unicode-konsortio

Katso myös