Unicode

Unicode on tietokonestandardi, joka mahdollistaa tekstien vaihdon eri kielillä globaalilla tasolla. Sen on kehittänyt Unicode-konsortio , jonka tavoitteena on koodata kirjoitettu teksti antamalla minkä tahansa kirjoitusjärjestelmän jokaiselle merkille nimi ja numeerinen tunniste yhtenäisellä tavalla, riippumatta tietokoneen alustasta tai käytetystä ohjelmistosta .

Tämä standardi liittyy standardiin ISO / IEC 10646 kuvaa vastaavien merkkien taulukon. Viimeisin versio, Unicode 13.0 , julkaistiin vuonnamaaliskuu 2020.

Täysin yhteensopiva ISO / IEC 10646: n yleisen merkistöjen (UIC) kanssa , Unicode-standardi laajentaa sitä lisäämällä täydellisen mallin esityksestä ja tekstinkäsittelystä, joka antaa jokaiselle merkille joukon ominaisuuksia (jotka voivat olla joko joillekin standardoituja ja vakautettuja kaikki Unicode-versiot, joissa merkki on koodattu, tai informatiivinen, vain niiden käyttöä koskeva suositus, joka voi kehittyä löydettyjen uusien tarpeiden mukaan). Nämä ominaisuudet kuvaavat tarkasti semanttisia suhteita, joita voi esiintyä tekstin useiden peräkkäisten merkkien välillä, ja mahdollistavat standardoinnin tai suosituksen käsittelyalgoritmeille, jotka säilyttävät muunnettujen tekstien semantiikan mahdollisimman paljon. Unicode pyrkii tekemään saman tekstin käytettäväksi identtisesti täysin erilaisissa tietokonejärjestelmissä.

Unicode-standardi koostuu 143859 merkin ohjelmistosta, joka kattaa yli 150 komentosarjaa, joukon kooditaulukoita visuaalista viittausta varten, koodausmenetelmän ja useita vakiomerkkikoodauksia, luettelomerkin ominaisuudet (isot, pienet, APL , symbolit, välimerkit) , jne. ) joukosta viite tietokoneen tiedostojen, ja useita siihen liittyviä elementtejä, kuten normalisoinnin sääntöjä, kaksisuuntainen hajoaminen, lajittelu, tekee ja näyttöjärjestys (näyttää oikein tekstin, joka sisältää sekä oikealta vasemmalle kirjoitusmerkit, kuten arabia ja heprea ja vasemmalta oikealle).

Käytännössä Unicode sisältää täysin ISO / IEC 10646 -standardin , koska jälkimmäinen standardoi vain yksittäiset merkit antamalla niille nimen ja normatiivisen numeron (kutsutaan koodipisteeksi ) ja hyvin rajoitetun informatiivisen kuvauksen, mutta ei käsittelyä tai määrittelyä tai suositusta niiden käyttämiseen. käyttö kirjoitettaessa todellisia kieliä, jotka vain Unicode-standardi määrittelee tarkasti. ISO / IEC 10646 on ohjeellisesti viitataan osiin Unicode-standardia (mukaan lukien kaksisuuntaisen algoritmin ja luonne ominaisuudet (in) ); Unicode on myös tosiasiallinen tekstinkäsittelystandardi ja toimii perustana monille muille standardeille.

Kirjalliset kielet:

Aakkosjärjestyksessä

[L] ogografinen ja [S] yllabic

Hanzi [L]
Kana [S]

Itä-Aasia [L]

Hangeul / Hanja b [L]

Abjad ( semiittiset kielet)

Abugida

Päämäärä

Unicode-taulukot (suunnitelma 0) Avaintiedot

0000 - 0FFF	8000 - 8FFF
1000 - 1FFF	9000 - 9FFF
2000 - 2FFF	A000 - AFFF
3000 - 3FFF	B000 - BFFF
4000 - 4FFF	C000 - CFFF
5000 - 5FFF	D000 - DFFF
6000 - 6FFF	E000 - EKTR
7000 - 7FFF	F000 - FFFF

Muut Unicode-suunnitelmat

0000 - FFFF	suunnitelma 0 (PMB / BMP )
10000 - 1FFFF	suunnitelma 1 (PMC / SMP )
20000 - 2FFFF	suunnitelma 2 (PSC / SIP )
30000 - 3FFFF	suunnitelma 3 (PST / TIP )
40 000 - DFFFF	laukaukset 4–13 (varattu)
E0000 - EFFFF	suunnitelma 14 (PCS / SSP )
F0000 - FFFFF	suunnitelma 15 (yksityinen A)
100 000 - 10FFFF	suunnitelma 16 (yksityinen B)

Unicode, jonka ensimmäinen julkaisu on vuodelta Lokakuu 1991, kehitettiin korvaamaan kansallisten koodisivujen käyttö .

Näillä koodisivuilla oli menneisyydessä ongelmia. Esimerkiksi EBCDIC : ssä toimivilta 3270 päätelaitteelta : kun sähköisessä muistiossa oli "valuuttamerkki" -merkki, sama teksti, joka rajoittaisi amerikkalaisen lukijan dollareina käyttämiä kuluja, näyttäisi Ison-Britannian näytöllä saman määrän puntaa , koska valuutta merkki oli erilainen molemmissa maissa.

Käytännössä kaikkia kirjoitusjärjestelmiä ei ole vielä läsnä, koska dokumenttien tutkimustyö asiantuntijoiden kanssa voi silti osoittautua välttämättömäksi harvinaisille hahmoille tai vähän tunnetuille kirjoitusjärjestelmille (koska ne ovat esimerkiksi kadonneet).

Kuitenkin maailmassa eniten käytetyt käsikirjoitukset, säännöt hahmojen semantiikasta , niiden sävellyksistä ja näiden eri järjestelmien yhdistämisestä ovat edustettuina . - Esimerkiksi kuinka lisätä oikealta vasemmalle -kirjoitusjärjestelmä vasemmalta oikealle -kirjoitusjärjestelmään ( kaksisuuntainen teksti ).

Standardointi

Yhteentoimivuus

UTF-8-muodossaan Unicode tarjoaa jonkin verran yhteentoimivuutta ASCII- koodin kanssa .

Vaatimustenmukaisuus

Unicode-standardi määrittelee vaatimukset prosessin (tai ohjelmiston) toteutuksen vaatimustenmukaisuuden arvioimiseksi Unicode . Nämä vaatimukset koskevat erityisesti ( versiossa 4.0 ):

määrittelemättömien koodipisteiden käsittely;
vastaavien merkkijonojen tulkinta;
mikä on muutos tekstin tulkinnassa;
merkkien koodaus;
kaksisuuntainen tekstinäyttö;
standardointi;
algoritmit;
rikkoutuminen.

Nämä vaatimukset sallivat Unicoden osajoukon tuen.

Vaikka ISO / IEC 10646 määrittelee saman merkistöjoukon kuin Unicode, ero ISO / IEC 10646: n ja Unicoden välillä johtuu pääasiassa Unicoden vaatimasta vaatimustenmukaisuuden vaatimuksesta.

Rajoitukset

Unicode on vuonna 2016 johtava standardi tietokonemerkkien koodaukselle. Sitä käytetään ohjelmistojen yhteentoimivuuteen, ja sen avulla voidaan esimerkiksi kopioida tekstejä eri aakkosilla varustetuilla merkeillä eri ohjelmistojen välillä, vaikka niitä ei olisikaan erityisesti suunniteltu niitä varten (esimerkiksi APL- merkkinen ohjelma LibreOffice- tekstissä tai sähköpostissa Gmailissa ). Kaikkia Unicode-tekstejä ei kuitenkaan ole koodattu samalla tavalla. Hyväksytystä Unicode-standardoinnista riippuen sama graafinen merkki voidaan joskus koodata eri tavoin. Jotkut tekstit käyttävät NFC yleissopimus , toiset NJP yleissopimus , jne Ja standardi ei kiellä useiden käytäntöjen sekoittamista samaan tekstiin. Sama pätee ohjelmistoihin.

Tämä samanaikaisesti useita eri tapoja kirjoittaa sama asia hyväkseen hakkerit vuonna 2000-luvulla , jonka avulla ne voivat ohittaa suodattimet: hakkerit ohittaa kiellot tiettyjen merkkijonojen pidetä vaarallisena yksinkertaisesti kirjaavat niitä toisessa muodossa., Harvinaisempia ja siksi joskus suodattamaton.

Unicode reagoi näihin rajoituksiin tarjoamalla kanonisen vastaavuuden käsitteen .

Standardit ja versiot

Unicode-työ on rinnakkainen ja synkronoitu ISO / IEC 10646 -standardin kanssa, jonka tavoitteet ovat samat. ISO / IEC 10646 , kansainvälinen standardi julkaistaan ranskaksi ja Englanti, joka ei määritä sääntöjä koostumusta merkkejä tai semanttisen ominaisuuksia merkkiä.

Unicode käsittelee kuitenkin kirjainkokoa , aakkosjärjestystä sekä aksenttien ja merkkien yhdistelmää . Koska Unicode versiota 1.1 ja kaikissa myöhemmissä versioissa, hahmot ovat samat tunnisteet kuin edellä ISO / IEC 10646-standardin : hakemistot pidetään rinnakkain, samanlaisia aikana lopullinen standardointia, kaksi standardia ovat päivityksiä lähes samanaikaisesti. Kaksi standardia: Unicode ( versiosta 1.1 lähtien ) ja ISO / IEC 10646 takaavat täydellisen yhteensopivuuden taaksepäin: kaiken aiemman version mukaisen tekstin on pysyttävä yhteensopivana myöhemmissä versioissa.

Näin ollen Unicode- version 3.0 merkit ovat ISO / IEC 10646: 2000 -standardin merkkejä . Versio 3.2 Unicode sijoittui 95221, symboleja ja direktiivejä.

Versio 4.1 Unicode, päivitettymarraskuu 2005, sisältää :

137 468 merkkiä yksityiseen käyttöön (osoitettu Unicoden kaikissa versioissa ja riittävä kaikkiin tarkoituksiin);
yli 97755 kirjainta tai tavua, numeroa tai numeroa, erilaisia symboleja, diakriittejä ja välimerkkejä, niiden joukossa:
- - yli 70207 ideografista merkkiä ja
  - joukossa 11 172 valmiiksi sävellettyä Hangul- tavua ; yhtä hyvin kuin
8258 pysyvästi varattua koodipistettä, jotka on kielletty tekstikoodaukselle (määritetty Unicoden kaikissa versioissa); ja
useita satoja kontrollimerkkejä tai erikoismuuttujia;

eli yhteensä lähes 245 000 koodipistettä, jotka on varattu tilaan, joka voi sisältää 1 114 112 eri koodia.

Kiinalaisia merkkejä koodattaessa näyttää kuitenkin olevan joitain ongelmia , koska eri kielillä käytetyt ideografiset joukot yhdistyvät hieman erilaisella ja joskus merkityksellisellä kalligrafialla, mutta ongelmat ratkaisee Unicode, joka on määritellyt valitsimet. avasi vakiojärjestysrekisterin, joka käyttää niitä.

Versio	Julkaisupäivämäärä	Uudet hahmot
1.0.0	Lokakuu 1991
1.0.1	Kesäkuu 1992
1.1	Kesäkuu 1993
2.0	Heinäkuu 1996
2.1	Toukokuu 1998
3.0	Syyskuu 1999
3.1	Maaliskuu 2001
3.2	Maaliskuu 2002
4.0	Huhtikuu 2003
4.1	Maaliskuu 2005
5.0	heinäkuu 2006
5.1	Maaliskuu 2008
5.2	lokakuu 2009
6.0	helmikuu 2011
6.1	31. tammikuuta 2012
7.0	16. kesäkuuta 2014	2834 uutta merkkiä, mukaan lukien hymiöt .
8.0	17. kesäkuuta 2015	7716 merkkiä, mukaan lukien monet hymiöt.
9.0	21. kesäkuuta 2016	7500 uutta merkkiä (mukaan lukien 72 hymiötä).
10.0	20. kesäkuuta 2017	8518 uutta merkkiä (mukaan lukien 56 hymiötä).
11.0	5. kesäkuuta 2018	684 uutta merkkiä (mukaan lukien 66 emojia).
12.0	5. maaliskuuta 2019	554 uutta merkkiä.
13.0	10. maaliskuuta 2020	5390 uutta merkkiä

Unicode-kerrokset

Unicode määritellään kerrostetun mallin mukaan ( tekninen huomautus Unicode n o 17 ). Muut standardit eivät tyypillisesti erottaneet merkistöä ja fyysistä esitystä. Kerrokset esitetään tässä alkaen korkeimmasta (kauimpana koneesta).

Abstraktien hahmojen hakemisto (abstrakti hahmoryhmä )

Yläkerros on merkistöjoukon määritelmä. Esimerkiksi Latin-1: ssä on 256 merkistöä, kun taas Unicode standardoi tällä hetkellä lähes 110 000 merkkiä. Lisäksi Unicode antaa nimen jokaiselle näistä merkeistä.

Merkkiluettelo nimineen muodostaa siis Unicode-sovelluskerroksen.

Esimerkiksi merkki Ç on nimeltään "latinalainen iso kirjain c cedilla".

Tämä määritelmä on täysin identtinen ISO / IEC 10646: n määritelmän kanssa, joka hyväksyy kaikki hakemiston laajennukset. Unicode käyttää standardinsa tekstissä vain englanninkielisiä normatiivisia nimiä, mutta ISO / IEC 10646 -standardi julkaistaan kahdella yhtä normatiivisella kielellä. Niinpä englannin- ja ranskankieliset nimet ovat standardoituja.

Itse asiassa kaikki hakemiston laajennukset tehdään nyt ISO / IEC 10646: sta vastaavan työryhmän ( JTC1 / SC2 / WG2 , jonka äänioikeutetut jäsenet ovat vain osallistuvien maiden kansallisia standardointiviranomaisia, tai heidän virallisen edustajansa) välillä. Unicode UTC: n tekninen komitea (jonka äänioikeutettuja jäseniä voivat olla yksityiset tai julkisen edun organisaatiot tai jopa hallitukset, jotka ovat liittyneet ja maksavat vuosimaksun osallistumisesta näihin päätöksiin).

Koodattu merkistö ( koodattu merkistö )

Tässä kuhunkin merkkiin liittyvä numero lisätään edelliseen taulukkoon. Huomaa, että tämä ei ole muistin esitys, vain kokonaisluku, jota kutsutaan koodipisteeksi . Näiden numeroiden koodaustila on jaettu 17 alueeseen 65 536 koodipisteestä. Näitä alueita kutsutaan lentokoneiksi .

Koodi kohta on huomattava, "U + xxxx", jossa "xxxx" on heksadesimaali- ja on 4 kohteeseen 6 numeroa :

4 numeroa etualalle, jota kutsutaan monikieliseksi perussuunnitelmaksi (siis välillä U + 0000 - U + FFFF);
5 numeroa seuraaville 15 suunnitelmalle (välillä U + 10000 ja U + FFFFF);
6 numeroa viimeiselle suunnitelmalle (välillä U + 100 000 - U + 10FFFF).

Siten merkillä, jonka nimi on "latinalainen iso kirjain c cedilla" (Ç), on numero U + 00C7. Se kuuluu etualalle.

Periaatteessa kaikki koodipisteet välillä U + 0000 - U + 10FFFF ovat käytettävissä, mutta tietyt intervallit on varattu jatkuvasti tiettyihin käyttötarkoituksiin, erityisesti suljettuun suuntavyöhykkeeseen UTF-16-koodauksen sallimiseksi ( katso alla), yksityiseen käyttöön tarkoitetuille alueille ja jotkut alueet (esim. U + FFFE tai U + FFFF), jotka sisältävät merkkejä, joiden käyttö on kielletty yhteensopivassa tiedonvaihdossa. Muut koodipisteet on joko jo osoitettu merkkeille tai varattu tulevaa standardointia varten.

Alue yksityiseen käyttöön: Unicode on määrännyt useita koodipisteitä kelvollisille merkeille, mutta joiden semantiikkaa ei tunneta yksityisen käytön vuoksi (esimerkiksi kaksi viimeistä suunnitelmaa välillä U + F0000 - U + 10FFFF on omistettu kokonaan tälle käytölle, lukuun ottamatta kahta koodia jokaisen suunnitelman lopussa olevat kohdat, jotka ovat kiellettyjä, ei-merkit yhteensopivassa tekstissä).

Tässäkin koodausstandardointi, ts. Koodipisteiden osoittaminen merkkeihin yhteisessä ohjelmistossa on Unicode- ja ISO / IEC 10646 -standardien välinen yhteinen päätös . Kaikilla hakemiston merkeillä on ainutlaatuinen koodipiste (vaikka joillakin kielillä tai Unicodella jotkut merkit katsotaan vastaaviksi).

Voidaan huomata, että jos merkkihakemisto on laajennettavissa, sitä rajoittaa koodaustilan yläraja: U + 10FFFF. Suurin osa mahdollisista koodipisteistä ei liity mihinkään tiettyyn merkkiin, mutta ne voivat olla milloin tahansa.

Näitä edelleen vapaita koodipisteitä ei pidetä virheellisinä, mutta ne edustavat abstrakteja merkkejä (ei vielä määritelty ja tilapäisesti varattu). Nämä abstraktit merkit (samoin kuin yksityiseen käyttöön tarkoitetut merkit) täydentävät standardoidun hakemiston koodatun merkistöä yhdeksi peliksi, jota kutsutaan " universaaliksi koodatuksi merkistöksi " ( Universal Coded Character Set , usein lyhennettynä UCS: ksi ), joka sisältää kaikki hakemistojen koodatut merkit. ISO / IEC 10646: n ja Unicoden jokaisen aiemman, nykyisen ja tulevan version ( vain versiosta 1.1 lähtien ).

Formalismin merkkien koodaus ( merkkien koodausmuoto )

Tällä kertaa aikaan fyysinen esitys (muistiin, levylle, jne.): Tämä kerros määritellään, mitkä koodausyksikön ( koodi yksikköä ), tai codet , edustaa merkin tai tarkemmin koodi piste: tavu , seizet (vuonna ) (16-bittinen sana) tai kolmekymmentä deuzet (en) (32-bittinen sana).

Näitä formalismeja voi olla (ja on) useita. Erityisen formalismin on määriteltävä koodausyksikön koko ja ilmoitettava, kuinka koodipistettä edustava kokonaisluku on esitetty koodausyksiköiden sarjassa - ja päinvastoin, eli kuinka löytää koodipiste, joka antaa koodausyksiköiden sarjan.

Mekanismin sarjallisuusmerkit ( merkkien koodausjärjestelmä )

Tämä kerros huolehtii edellisen kerroksen määrittelemien koodausyksiköiden sekvenssien järjestämisestä tavusekvensseiksi. Täällä tavujen järjestys valitaan big-endianin (ensin merkittävin tavu) ja little-endianin (ensin vähiten merkitsevä tavu) välillä.

Tässä vaiheessa on myös mahdollista lisätä tavujärjestysindikaattori (tai BOM, tavujärjestysmerkille ), joka ilmaisee tiedoston tai datavirran alussa, onko kyseessä big-endian vai little-endian. Internet-maailmassa sitä käytetään harvoin, mieluummin nimenomaisen merkinnän (esim. " Charset = UTF-16BE " MIME -ohjelmassa osoittaakseen big-endian-tietovirran, jossa BE tarkoittaa big endian ).

Ylikoodauksen siirto ( siirtokoodauksen syntakse )

Tässä valinnaiset pakkaus- tai salausmekanismit.

LDAP: lle voi olla myös ylikoodaus, joka määrittää, että Unicode-merkkijonot tulisi koodata UTF-8: ssa ja ylikoodata Base64: ssä .

Tavuarvo

Aikaisempien standardien (bittisarja, esitys) jäykkien rajoitusten voittamiseksi Unicode erottaa vastedes toisaalta merkistöjoukon määritelmän (merkkiluettelo nimensä mukaan) ja indeksin, koodipisteen , koodauksesta . Siksi emme voi puhua Unicode-merkin koosta, koska se riippuu valitusta koodauksesta, ja tämä voi siksi vaihdella haluamallasi tavalla. Käytännössä UTF-8: ta käytetään laajalti länsimaissa.

Jos ASCII käyttää 7 bittiä ja ISO / IEC 8859-1 8 bittiä (kuten useimmat kansalliset koodisivut), Unicode, joka kerää merkit kustakin koodisivusta, tarvitaan yli 8 bitin yhden tavun käyttämiseen . Rajaksi asetettiin alun perin 16 bittiä Unicoden varhaisille versioille ja 32 bittiä ISO / IEC 10646 : n varhaisille versioille .

Nykyinen raja on nyt asetettu välillä 20 ja 21 bittiä koodipistettä kohti, jotka on osoitettu standardoiduille merkeille kahdessa nyt yhteensopivassa standardissa:

ISO: n kansainvälinen työryhmä standardoi koodipisteiden osoittamisen merkeille, niiden viralliselle nimelle ja varaa kunkin komentosarjan tai komentosarjaryhmän käyttämät koodipisteiden lohkot. Se dokumentoi myös mahdollisen graafisen esityksen (ohjeellinen) jokaiselle merkille (tämä graafinen esitys on mahdollisuuksien mukaan yksiselitteinen, koska standardoidut merkit on sijoitettu asianmukaisiin koodilohkoihin rajoitetulle määrälle komentosarjoja).
Unicode-konsortion työryhmä standardoi tarkemmin (Unicode-standardissa) semantiikansa automaattista käsittelyä varten hahmo-ominaisuustaulukoiden ansiosta ja näitä ominaisuuksia käyttävien vakioalgoritmien kehittämisen ansiosta.
Kaksi standardointielintä tekevät yhteistyötä synkronoidakseen vakiomuotoisen ohjelmistonsa jatkuvasti viitattuihin virallisiin versioihin ja työskentelevät yhdessä muutosten parissa (versiot tulevat virallisiksi vasta, kun molemmat elimet ovat hyväksyneet ja täysin määritelleet uudet lisäykset. Merkit).
Käytännössä useimmille sovelluskehittäjille ISO / IEC 10646 -standardi näkyy täydellisemmän Unicode-standardin osajoukkona , mutta sillä on samat koodipisteet täsmälleen samalle merkistölle kuin standardille.Unicode (siksi Unicode-standardi on tunnetaan paremmin, koska se soveltuu paremmin tietokoneistettuun käsittelyyn sekä saatavana ilmaiseksi Internetissä).

Yleinen muunnosmuoto (UTF)

Unicode ja ISO / IEC 10646 hyväksyvät useita universaalimuunnosmuotoja edustamaan kelvollista koodipistettä. Lainataan:

Numero UTF: n jälkeen edustaa vähimmäismäärää koodipisteitä , joiden kanssa kelvollinen koodipiste on esitetty.

Nämä muunnokset luotiin alun perin ISO / IEC 10646 : n sisäisen esityksen ja koodipisteiden koodausjärjestelmille , jotka alun perin pystyivät määrittelemään 31-bittiset koodipisteet. Siitä lähtien ISO / IEC 10646 -standardia on muutettu siten, että nämä kolme lomaketta ovat täysin yhteensopivia keskenään ja mahdollistavat kaikkien koodipisteiden koodaamisen (koska UTF-16 sallii vain ensimmäisten 17 tason koodipisteiden edustettuina).

Unicode on myös hyvin standardisoinut nämä kolme muunnosmuotoa kaikista voimassa olevista koodipisteistä (U + 0000 - U + D7FF ja U + E000 - U + 10FFFF) ja vain niistä, edustavatko ne tekstiä koodipisteiden muotosekvensseissä, tai koodipisteet, jotka on osoitettu kelvollisille merkeille, varattu tai osoitettu muille kuin merkkeille. Puolivyöhykkeille (U + D800 - U + DFFF) osoitetut koodipisteet, joita käytetään vain UTF-16: ssa, ovat erikseen virheellisiä, koska niitä käytetään kahden 16-bittisen koodipisteparin avulla edustamaan koodipisteitä 16 lisäsuunnitelmaan.

UTF-8

UTF-8 , on määritelty RFC 3629, on yleisin sovellukset Unix ja Internetissä . Sen erikokoisen koodauksen ansiosta se voi olla keskimäärin halvempaa muistin käytössä (latinalaisilla aakkosilla). Mutta tämä merkittävästi hidastaa operaatioita osa-merkkijono uuttokertaa joissakin kielissä jonka indeksi jousille kokonaislukuja (esim = "815 : nnen luonne merkkijono"), koska se on tarpeen laskea merkkejä merkkijonon alusta lukien tietää missä ensimmäinen purettava merkki on.

UTF-8 tarjoaa myös, ja tämä on sen tärkein etu, yhteensopivuus yksinkertaisen merkkijonon manipulaation kanssa ASCII: ssä ohjelmointikielissä . Siksi C- kirjoitetut ohjelmat voivat usein toimia ilman muutoksia.

Aluksi UTF-8 voisi koodata minkä tahansa koodipisteen välillä U + 0000 ja U + 7FFFFFFF (eli enintään 31 bittiä). Tämä käyttö on vanhentunut, ja ISO / IEC 10646-standardin on muutettu tukemaan vain oikea koodi olevia ensimmäisen 17 laukausta, paitsi ne, joilla on puoli-vyöhyke , joka vastaa koodia, joita käytetään UTF-16 edustusta kaksi koodia 16 lisäsuunnitelman koodipisteet. Myös UTF-8: n pisimmät sekvenssit vaativat enintään 4 tavua aikaisemman 6: n sijaan. Lisäksi UTF-8 muutettiin ensin Unicode: lla ja sitten ISO / IEC 10646: lla, jotta se hyväksyisi vain kunkin koodipisteen lyhimmän esityksen ( koodauksen ainutlaatuisuus ). Tosiasia, että sama merkki voidaan edustaa useilla eri tavoilla, aiheutti turvallisuusongelmia, koska hakkeri pystyi ohittamaan "suodatetun" muodon eri kirjoituksella.

Sen etuna UTF-16: een (ja UTF-32: een) verrattuna on, että sanan muodostavien tavujen järjestyserot ( endianisuus ) eivät aiheuta ongelmaa heterogeenisten järjestelmien verkossa; siis tätä muunnosta käytetään nykyään useimmissa standardoiduissa vaihtoprotokollissa.

Toisaalta UTF-8 on täysin yhteensopiva tekstien siirtämiseen ASCII-merkistöön perustuvien protokollien avulla tai voidaan tehdä yhteensopivaksi (muiden kuin ASCII-merkkien monitavuisen muuntamisen kustannuksella) tukevien vaihto-protokollien kanssa 8-bittiset koodatut merkistöt (perustuvatko ne ISO / IEC 8859 -standardiin tai moniin muihin 8-bittisiin koodattuihin merkistöihin, jotka on määritelty kansallisissa standardeissa tai erityisissä omistetuissa järjestelmissä).

Sen tärkein haittapuoli on hyvin vaihtelevan pituinen koodaus (1 tavu ASCII: lle osoitetuille koodipisteille - ISO / IEC 646 merkkiä , 2 - 4 tavua muille koodipisteille), vaikka UTF-8: lle ominainen automaattinen synkronointi koodaus antaa mahdollisuuden määrittää sekvenssin alku satunnaisesta sijainnista (suorittamalla enintään 3 lisälukua edellisistä koodipisteistä). Tätä koodausta ei kuitenkaan ole suunniteltu helpottamaan merkkijonojen käsittelyä: suosimme usein UTF-16, joskus UTF-32 (ahne muistissa).

Johdannaiset

Joillakin ohjelmilla (esimerkiksi Oracle-tietokanta ), jotka edustavat sisäisesti Unicode-tietojaan UTF-16-muodossa, on (tai on ollut) muunnosvirhe UTF-8: ksi, joka on U + 10000: n ja U + 10FFFF: n välillä, tallennettuna kahteen bittisanat, muunnetaan UTF-8: ksi kahden Unicode-merkin jaksona. Tämä johti CESU-8: n "tahattomaan" luomiseen ja sillä on se etu, että se helpottaa Unicoden käyttöä 16-bittisillä alustoilla.
Unicode-tyhjä merkki U + 0000 koodataan UTF-8: ssa yhtenä null-tavuna 0x00 . Unicode-standardin mukaan tällä merkillä ei ole erityistä merkitystä; kuitenkin (historiallisista käsitteellisistä syistä) C-kielen merkkijonoja käsittelevät kirjastot pitävät tätä ohjausmerkkiä merkkijonon loppuun, mikä vaikeuttaa joidenkin sovellustapausten toteuttamista . Alle Java , The ” (fi) Modified UTF-8 ” versio syntyi ottamalla etu ”16-bit” siirrettävyys CESU-8 ja lisäämällä mahdollisuus koodaavan U + 0000 mukaisesti sekvenssin 0xC0 0x80 (yleensä kielletty UTF-8: ssa): vaihtamalla tällä tavalla tuetun alustan alkuperäisten C-kirjastojen kanssa, alusta voi helposti hallita kaikkia kelvollisia Unicode-tekstejä sekä käännettyjä luokkatiedostoja (kannettava vaihtoehtoinen muoto, riippumatta endianiteetista ja sanasta koko).

UTF-16

UTF-16 on hyvä kompromissi, kun muistia ei ole liian pieni, sillä valtaosa Unicode osoitettu kirjoituksia nykykielten (mukaan lukien yleisimmin käytetty merkkiä) ovat monikielisiä suunnitelmassa pohja ja voidaan siis esittää 16 bitillä. ISO / IEC 10646: n ranskankielisessä versiossa näitä 16-bittisiä sanoja kutsutaan "takavarikoiksi", mutta kansainvälisessä versiossa niitä kuitenkin kuvataan klassisiksi 16-bittisiksi sanoiksi, jotka koostuvat kahdesta tavusta ja joihin sovelletaan tavallisia endismin sääntöjä .

UTF-16-koodaus

hei \ lo	DC00	DC01	...	DFFF
D800	10000	10001	...	103FF
D801	10400	10401	...	107FF
⋮	⋮	⋮	⋱	⋮
DBFF	10FC00	10FC01	...	10FFFF

Kuusitoista ylimääräisen tason koodipisteet vaativat muunnoksen kahdelle 16-bittiselle sanalle:

vähennä 0x10000 koodipisteestä, jättäen 20-bittinen numero alueelle 0x00 - 0xFFFFF;
10 merkittävintä bittiä (luku välillä 0x00 - 0x3FF) lisätään 0xD800: een, ja ne antavat ensimmäisen koodiyksikön korkealla puolialueella ( 0xD800 - 0xDBFF );
10 vähiten merkitsevää bittiä (luku välillä 0x00 - 0x3FF) lisätään 0xDC00: een ja ne antavat toisen koodiyksikön matalalla puolivyöhykkeellä ( 0xDC00 - 0xDFFF );

Koska suurin osa yleisimmin käytetyistä merkeistä asuu perustasossa, lisäleikkeiden koodausta testataan usein huonosti ohjelmistossa, mikä johtaa virheisiin tai turvallisuusongelmiin jopa laajalti jaetuissa ohjelmistoissa. Tietyt oikeudelliset kehykset, kuten GB 18030 , voivat pyytää tukea lisäsuunnitelmille , jotka sisältävät erityisesti oikeissa nimissä olevia merkkejä.

Koodaavan sekvenssin alku on mahdollista määrittää mistä tahansa UTF-16: ssa esitetyn tekstin kohdasta suorittamalla enintään yksi lisälukema vain, jos tämä koodipiste on alemmalla puolialueella. Tämä muoto on taloudellisempi ja helpompi käsitellä nopeasti kuin UTF-8, kun kyseessä on vain vähän ASCII-merkkejä sisältävien tekstien esittäminen (U + 0000 - U + 007F).

Tällä muunnoksella on kuitenkin kaksi yhteensopimatonta koodausmenetelmää, jotka riippuvat tavujen järjestyksestä 16-bittisessä kokonaislukuesityksessä. Tämän epäselvyyden poistamiseksi ja siirtämisen sallimiseksi heterogeenisten järjestelmien välillä on tarpeen lisätä tietoja, jotka osoittavat käytetyn koodausmenetelmän (UTF-16BE tai UTF-16LE), tai etuliitettävä koodattu teksti koodipisteen edustuksella. Kelvollinen U + FEFF (määritetty merkille "nollaleveyden murtumaton tila", merkki, joka on varattu tälle ainoalle käytölle tavun järjestysmerkkinä), koska koodipiste "päinvastainen" U + FFFE voimassa on ei-merkki, joka on kielletty teksteissä Unicode ja ISO / IEC 10646 .

Toinen UTF-16: n virhe on, että sen kanssa muunnettu ja jommallakummalla koodausmenetelmällä lähetetty teksti sisältää suuren määrän tavuja, jotka ovat tyhjiä tai joiden arvo on ristiriidassa d-arvojen kanssa. 'Tavut, jotka on varattu tietyillä vaihtoprotokollilla.

Tämä on erityisesti koodaus, jota Java- alusta käyttää sisäisesti, samoin kuin Windows Unicode-yhteensopiville sovellusliittymille (tyypin kanssa wchar).

UTF-32

UTF-32 käytetään, kun muistia ei ole ongelma, ja meidän on saada merkkiä suoraan ja ilman koon muutosta ( egyptiläinen hieroglyphs ).

Tämän standardoidun muunnoksen etuna on, että kaikilla koodielementeillä on sama koko. Siksi ei ole tarpeen lukea ylimääräisiä koodipisteitä koodipisteen esityksen alun määrittämiseksi.

Tämä muoto on kuitenkin erityisen epäekonominen (myös muistissa), koska se "hukkaa" tarpeettomasti vähintään yhden tavun (aina nolla) merkkiä kohden. Tekstin koko muistilla vaikuttaa negatiivisesti suorituskykyyn, koska se vaatii enemmän luku- ja kirjoituslevyjä, jos RAM-muistia on täynnä , ja se vähentää myös prosessorien muistivälimuistin suorituskykyä.

Teksteille, jotka on kirjoitettu nykyisillä moderneilla kielillä (lukuun ottamatta tiettyjä harvinaisia merkkejä täydentävästä ideografisesta tasosta) ja siten vain monikielisen perustason koodipisteitä käytettäessä, tämä muunnos kaksinkertaistaa tarvittavan muistin määrän verrattuna UTF-16: een.

Kuten UTF-16, UTF-32: lla on useita koodausmenetelmiä riippuen tavujen järjestyksestä, joka muodostaa yli 8 bitin kokonaisluvun (kaksi UTF-32: n koodausjärjestelmää on standardoitu, UTF-32BE ja UTF-32LE). Siksi on myös tarpeen määrittää tämä koodausmenetelmä tai määrittää se etuliittämällä teksti koodipisteen U + FEFF edustuksella UTF-32: ssa. Kuten UTF-16, null-tavujen läsnäolo UTF-32: n standardoiduissa koodausjärjestelmissä tekee siitä yhteensopimattoman monien heterogeenisten järjestelmien välisen vaihdon protokollien kanssa.

Myös tätä muotoa käytetään useimmiten vain hyvin paikallisesti tietyssä prosessoinnissa helpommin käsiteltävänä välimuotona, ja suosimme usein UTF-16-muunnosta, joka on usein tehokkaampi suurten tekstimäärien käsittelyssä ja varastoinnissa, muuntaminen nämä kaksi ovat erittäin yksinkertaisia suorittaa ja erittäin halpoja käsittelyn monimutkaisuuden kannalta.

Itse asiassa monet tekstinkäsittelykirjastot on kirjoitettu vain UTF-16: lla ja ne ovat tehokkaampia kuin UTF-32, vaikka tekstit sisältävät merkkejä ylimääräisistä tasoista (koska tämä kuviotapaus on harvinainen useimmissa tapauksissa).

Huomaa kuitenkin, että muunnos UTF-32: ksi käyttää 32-bittisiä koodipisteitä, joista monet eivät välttämättä edusta mitään kelvollista koodipistettä (arvot kahden aikavälin ulkopuolella, jotka edustavat kelvollisia koodipisteitä U + 0000 - U + D7FF ja U + E000 - U + 10FFFF), joten ei kelvollista tai varattua merkkiä (kaikki sen sisältämät tiedot eivät siis voi olla tekstiä Unicode-merkityksessä). Tekstien lähettäminen käyttämällä näitä virheellisiä koodiarvoja yhdessä UTF-32: n standardoiduista koodausjärjestelmistä on kielletty missään Unicode-yhteensopivassa järjestelmässä (koodipisteitä on käytettävä sen sijaan yksityiseen käyttöön), koska se on mahdotonta. edustaa niitä toisessa UTF-muunnoksessa, jonka kanssa kolme standardoitua UTF: ää ovat bijectively yhteensopivia.

Kiinan standardi GB 18030

Tämä on Unicoden muunnos, jota ei määrittele Unicode-konsortio, vaan standardihallinto Kiinassa, jossa sen tuki on pakollista sovelluksissa. Historiallisesti tämä oli koodattu merkistö, jota on laajennettu tukemaan koko UCS-ohjelmistoa algoritmisella muunnoksella, joka täydentää suuren koodista koodiin -vastaavuustaulukon.

Unicode-fontit

Sen väittäminen, että Unicode koodaa merkkejä, tarkoittaa väitettä, että se antaa numeron abstrakteille symboleille loogisen koodauksen periaatteen mukaisesti. Toisaalta Unicode ei koodaa merkkien, kuvioiden graafisia esityksiä . Siksi hahmon esityksen ja numeron välillä ei ole bijectionia , koska kaikki tyylin graafiset muunnelmat ovat yhtenäisiä.

Lisäksi, toisin kuin perinteinen ASCII- tai Latin-1- fontti , glyfin valinta koodilla ei ole ainutlaatuinen ja usein kontekstuaalinen, ja se voi myös näyttää saman kuvion eri koodeille. Näin ollen ranskalaista merkkiä "é" voidaan kuvata kahdella tavalla: joko käyttämällä suoraan "é": tä vastaavaa lukua tai seuraamalla "e": n numeroa akuutin aksentin numerolla ilman metsästystä. Minkä vaihtoehdon valitset, sama kuvio näytetään. Ensimmäisestä merkistä sanotaan, että se on esisommiteltu, toisesta, että se on sävellys (kaksi merkkiä muodostaa yhden kuvion, joka koostuu molemmista). Tämä on sallittua ja jopa erittäin suositeltavaa, koska Unicode luokittelee koodauksen eri muodot "kanonisesti vastaaviksi", mikä tarkoittaa, että kahta vastaavaa koodauksen muotoa tulisi kohdella identtisesti.

Monet komposiittimerkit ovat tässä tapauksessa, ja ne voidaan koodata näillä kahdella tavalla (tai enemmän, jotkut komposiittimerkit voidaan hajottaa useammalla kuin yhdellä tavalla, varsinkin kun niillä on useita diakriittejä). Useimmiten esisommiteltu merkki on suositeltavin tekstin koodaukselle, jos sellainen on olemassa (tämä pätee esimerkiksi polytoniseen kreikkalaiseen , joka hajotettuna koodattu ei välttämättä ole graafisesti tyydyttävä: fonttien merkkien mukaan eri glyfin osat ovat joskus huonosti järjestettyjä ja vaikeasti luettavia). Kaikilla yhdistelmämerkeillä ei kuitenkaan ole ainutkertaista koodipistettä esisommiteltuun muotoonsa.

Samoin jotkut kirjoitusjärjestelmät, kuten Devânagarî , persia tai arabia , vaativat ligatuurien monimutkaisen käsittelyn : grafeemit muuttavat muotoa sijaintinsa tai naapureidensa mukaan (ks. Kontekstuaalinen muunnos ja Yhteinen kirje ). Oikean kuvamerkin valitseminen edellyttää käsittelyä sen määrittämiseksi, mikä kontekstuaalinen muoto fontista valitaan, vaikka kaikki asiayhteyteen liittyvät muodot koodattaisiin samalla tavalla Unicode-koodissa.

Näistä syistä Unicode-kirjasinta tulisi käsitellä varoen. Esimerkiksi fontti, jossa on kaikki olemassa olevat kuviot, ei riitä. On myös välttämätöntä, että näyttöjärjestelmällä ( renderointimoottorilla ) on mekanismit, jotka pystyvät käsittelemään ligatuureja , asiayhteyteen liittyviä muunnelmia ja tietyille kielille ominaisia yhteisiä muotoja. Kääntäen fontti, joka edustaa vain osaa merkistä, mutta osaa näyttää ne oikein, ansaitsee paremmin "Unicode-fontin" otsikon. Lopuksi tietyt fonttimuotojen tekniset rajoitukset voivat estää niitä tukemasta koko hakemistoa. Käytännössä on mahdotonta (vuonna 2009) löytää yhtä kirjasinta, joka tukee koko hakemistoa.

Unicode-merkkifontti on siten vain kirjasin, jonka avulla on mahdollista näyttää teksti, joka on koodattu kaikissa Unicoden hyväksymissä muodoissa, ja mahdollistaa yhden tai useamman kielen mukaisen yhtenäisen osajoukon tukemaan yhtä tai useampaa komentosarjaa. Mikään Unicode-kirjasinlaji ei voi "toimia" yksinään, ja täysi kirjoittamistuki vaatii näiden tukemista renderointimoottorissa , joka pystyy havaitsemaan vastaavat koodauslomakkeet, etsimään asiayhteyteen liittyviä muotoja tekstistä ja valitsemaan Unicode-koodatun kirjasimen eri kuviot, käyttämällä itse kirjasimeen sisältyviä vastaavuustaulukoita tarvittaessa.

Tekniset yksityiskohdat

Ohjelmistokirjastot

ICU cross-platform ohjelmistokirjasto avulla voit muokata dataa koodataan Unicode. Alustakohtainen Unicode-tuki on integroitu myös moderneihin järjestelmiin ( Java , Microsoft Windows , GNU / Linux , tavalliset C / C ++ -kirjastot , Python jne.).

Unicode-muuttujien tallentamiseen käytettävät tyypit:

Unicoden kanssa yhteensopivat ohjelmointikielet

Ohjelmointikieli	Kirjoita yhdelle merkille	Kirjoita tekstiä varten
VS	char[4] Missä wchar_t[2]	char[] Missä wchar_t[]
C ++	char[4] Missä wchar_t[2]	char[]tai wchar_t[]tai std::stringtaistd::wstring
Java	char[2] Missä int	char[] Missä String
ICU-kirjasto (C / C ++ tai Java)	UChar	UChar[]tai String,UnicodeString
JavaScript tai ECMAScript	char	string
C # tai J #	char	string
Delfoi	char[4] Missä widechar[2]	string Missä widestring
Python 2		unicode
Python 3		str
Mennä	rune(= int32)	string Missä []byte
Nopea	Character	String

Huomautuksia

UTF-8: ssa
Huomaa kuitenkin, että wchar_tC- kielityyppi ei aina salli kaikkien Unicode-merkkien koodaamista, koska tämän kielen standardi ei tarjoa riittävää vähimmäismäärää tälle vakiotyypille. Monet kielen kääntäjät määrittelevät wchar_tkuitenkin 32 bittiä (tai jopa 64 bittiä ympäristöissä, jotka käsittelevät standardinmukaisia 64-bittisiä kokonaislukuja), mikä riittää minkä tahansa standardoidun Unicode-koodin pisteiden tallentamiseen. Mutta muut kääntäjät edustavat wchar_t16 bittiä (erityisesti Windowsissa 16 tai 32 bitin ympäristössä), jopa vain 8 bittiä (erityisesti sulautetuissa ympäristöissä, joissa ei ole yleistä käyttöjärjestelmää), koska ne wchar_tvoivat käyttää samaa esitystä kuin tyyppi, charjolla on vähintään 8 bittiä.
Samalla tavalla kuin C ja C ++, Java-kielellä on yksikkötyyppi, jonka avulla voidaan koodata 16 bittiä, mutta ei sallita minkään arvon yksittäisen koodipisteen koodaamista (natiivityyppi charon vain positiivinen 16-bittinen kokonaisluku) . Standardoitujen merkkien muokkaamiseksi etualalta, sinun on käytettävä paria koodipisteitä, joista jokaisessa on arvo, joka on yhtä suuri kuin UTF-16-lomakkeen määrittelemät kaksi koodipistettä. Myös kohdetyypit Stringtai char[2]ovat sopivimpia edustamaan Unicode-merkkiä. Koska Java 1.4.1 , standardi kirjasto tarjoaa täyden Unicode-tuki ansiosta natiivi tyyppiä int(joka on kokonaisluku määritelty 32 bittiä) ja staattisia menetelmiä standardin luokan Character(voi kuitenkin olla instantioida tämän tyyppinen objekti Characterei salli, kuten natiivityyppi char, minkä tahansa koodipisteen tallentamiseksi).
JavaScriptillä on useita standardoimattomia toteutuksia, jotkut vanhemmat, jotka tukevat enintään 16 bittiä merkkiä kohden ja joskus vain 8 bittiä. Tämän kielen ECMAScript-standardi määrittelee kuitenkin Character32 bitin hyötyluokan (itse asiassa luokan perusteella Number), jonka on tuettava kaikkia 17 standardoidun suunnitelman koodipisteitä, kun taas merkkijonot käyttävät pakollisesti koodattuja merkkejä 16 bitillä (mutta ilman rajoitus, joka vahvistaa UTF-16-koodiyksiköiden pariliitosta, tyypin ECMAScript-merkkijonoja Stringei ole rajoitettu ainoaan UTF-16-koodaukseen, vaan ne ovat vektoreita kokonaisluvuvakioista, jotka on koodattu 16 bitille rajoituksetta, jotta voidaan varmistaa (yhteentoimivuus Java ja muiden kielet, jotka eivät myöskään pakota UTF-16-vaatimustenmukaisuusrajoituksia alkuperäisissä tietotyypeissään). Nämä kaksi kieltä eivät tue muuttujien nimenomaista kirjoittamista, koska tyyppi määritetään dynaamisesti niille annettujen arvojen mukaan (myös useita sisäisiä esityksiä on mahdollista, niiden erot ovat normaalisti avoimia ohjelmoijalle).

Unicode kärsii kuitenkin edelleen heikosta tuesta joidenkin ohjelmistojen säännöllisille lausekkeille , vaikka kirjastot, kuten ICU ja Java, voivat tukea niitä. Tällaista tukea ei ole vielä standardoitu ECMAScriptille, ja sitä tarjotaan vain sellaisten kirjastojen avulla, jotka on luotu kielellä tai liitännöillä yhteentoimivuuteen muiden järjestelmien (erityisesti CORBA , COM ) kanssa tai kielten (erityisesti C ++ ja Java ) kanssa.

Osiointi

Ajantasainen osiointi löytyy viralliselta Unicode-verkkosivustolta. Ottaen kuitenkin huomioon Unicoden tärkeä rooli tänään ( ISO / IEC 10646 ), päähenkilölohkot kuvataan tässä. Ranskalaiset nimet ovat kansainvälisen kaksikielisen standardin ISO / IEC 10646 virallisia nimiä, jotka käyttävät samoja merkkejä kuin Unicode. Ne ovat yhtä virallisia kuin englanninkieliset nimet.

Vanha Unicode 1.0 -standardi on vanhentunut ja yhteensopimaton ISO / IEC 10646: n ja Unicode 1.1: n ja kaikkien sen myöhempien versioiden kanssa. tärkein yhteensopimattomuus on korealaisen kielen kirjoittamiseen käytettyjen Hangul-merkkilohkojen sijainti, jotka ovat muuttaneet sijaintia ja joiden vanhat koodipisteet on sittemmin osoitettu muille lohkoille. Alla oleva taulukko on yhteensopiva ISO / IEC 10646: n (kaikki versiot) ja Unicode 1.1: n (tai uudemman) kanssa.

Huom. Lohkonimien tapaus ei ole normatiivinen. "Latin Latin" vastaa siis "BASIC LATIN" -merkkiä.

Seuraavissa taulukoissa mikä tahansa virallinen Unicode PDF -tietoon liittyvä muistiinpanon nimi tarkoittaa, että kyseiseen lohkoon liittyvää Wikipedia-sivua ei ole tai se on virheellinen.

Monikielinen perussuunnitelma (PMB, 0000 - FFFF)

Koodipisteet		Virallinen estonimi	Virallinen PDF	Lue lisää
alkaa	Loppu	Virallinen estonimi	Virallinen PDF	Lue lisää
0000	007F	Peruskomennot C0 ja Latin	U0000	katso ISO / IEC 646 , ASCII , latinalaiset aakkoset , Unicode-ohjausmerkit
0080	00FF	C1-komennot ja Latin-1-lisäosa	U0080	katso ISO / IEC 8859 , ISO / IEC 8859-1 , latinalaiset aakkoset , Unicode-tarkistusmerkit
0100	017F	Latinalainen laajennettu A	U0100	katso latinalaiset aakkoset
0180	024F	Latinalainen laajennettu B	U0180	katso latinalaiset aakkoset
0250	02AF	Kansainvälinen foneettinen aakkoset (API)	U0250	katso kansainvälinen foneettinen aakkoset
02B0	02FF	Korjauskirjeet leveydellä	U02B0	ks. diakritikot , latinalaiset aakkoset , latinalaiset aakkoset , kansainväliset foneettiset aakkoset
0300	036F	Diakriitikot	U0300	katso tarkkeiden , tarkkeiden latinalaisten aakkosten , tarkkeiden kreikkalaisten aakkosten , koptin aakkoset , tarkkeiden kyrilliset aakkoset
0370	03FF	Kreikka ja kopti	U0370	katso kreikan aakkoset ja koptiset aakkoset
0400	04FF	Kyrillinen	U0400	katso kyrilliset aakkoset
0500	052F	Kyrillinen lisäosa	U0500	katso kyrilliset aakkoset
0530	058F	Armenialainen	U0530	katso Armenian aakkoset
0590	05FF	heprealainen	U0590	ks. heprealainen aakkoset , diakritikot , heprealaisten aakkosien diakritikot
0600	06FF	arabi	U0600	katso arabian aakkoset
0700	074F	Syyrialainen	U0700	katso Syyrialainen
0750	077F	Arabialainen lisäosa	U0750	katso arabian aakkoset
0780	07BF	Thâna	U0780	katso Malediivien aakkoset
07C0	07FF	Ei	U07C0	katso N'ko
0800	083F	samarialainen	U0800	katso samarialainen aakkoset
0840	085F	Mandealainen	U0840	katso mandean aakkoset
0860	086F	Syyrialainen lisäosa	U0860	katso Syyrialainen
0870	089F	Varata	-	-
08A0	08FF	Laajennettu arabia A.	U08A0	katso arabian aakkoset , diakritikot , arabialaisten aakkosien diakritikot
0900	097F	Devanagari	U0900	katso Devanâgarî
0980	09FF	Bengali	U0980	katso Bengali
0A00	0A7F	Gurmoukhi	U0A00	katso Gurmukhī
0A80	0AFF	Gujarat	U0A80	katso gudžaratin aakkoset
0B00	0B7F	Oriya	U0B00	katso Oriya
0B80	0BFF	Tamili	U0B80	katso tamili
0C00	0C7F	Telougou	U0C00	katso Telougou
0C80	0CFF	Kannara	U0C80	katso Kannara
0D00	0D7F	Malajalam	U0D00	katso Malajalam
0D80	0DFF	Singhalese	U0D80	katso Singhalese
0E00	0E7F	Thai	U0E00	katso thaimaalainen
0E80	0EFF	Lao	U0E80	katso Lao
0F00	0FFF	Tiibetiläinen	U0F00	katso tiibetiläistä
1000	109F	Burmalainen	U1000	katso Burman
10A0	10FF	Georgialainen	U10A0	katso georgialainen , georgialainen aakkoset
1100	11FF	Jamos hangul	U1100	katso Hangûl
1200	137F	Etiopialainen	U1200	katso Alphasyllabaire geez
1380	139F	Etiopian lisäosa	U1380	katso Alphasyllabaire geez
13A0	13FF	Cherokee	U13B0	katso Cherokee Syllabary
1400	167F	Kanadan yhtenäiset alkuperäiskansat	U1400	Katso intiaani kielet
1680	169F	Ogam	U1680	katso Oghamic aakkoset
16A0	16FF	Runes	U16A0	katso runon aakkoset
1700	171F	Tagalog	U1700	katso Tagalog
1720	173F	Hanounóo	U1720	katso Hanunóon aakkoset (en)
1740	175F	Bouhide	U1740	katso Buhid (en)
1760	177F	Tagbanoua	U1760	katso aakkoset Tagbanoua (en)
1780	17FF	Khmer	U1780	katso Khmer
1800	18AF	Mongolialainen	U1800	katso mongolia
18B0	18FF	Laajennetut Kanadan alkuperäiskansat	U18B0	Katso intiaani kielet
1900	194F	Limbou	U1900	katso Limbou
1950	197F	Tai se	U1950	katso Taï-le
1980	19DF	Uusi Taï lü	U1980	katso Tai lü
19E0	19FF	Khmerien symbolit	U19E0	katso Khmer
1A00	1A1F	Bougui	U1A00	katso Bugisin kieli , Lontaran kirjoittaminen
1A20	1AAF	Tai tham	U1A20	katso aakkoset Taï Tham ( fr )
1AB0	1AFF	Laajennetut diakriitikot	U1AB0	katso diakritinen
1B00	1B7F	Balilainen	U1B00	katso balilaista kirjoitusta
1B80	1BBF	Soundanese	U1B80	katso Soundanese , Sudanin aakkoset (en)
1BC0	1BFF	Batak	U1BC0	katso Batakin käsikirjoitus
1C00	1C4F	Lepcha	U1C00	katso aakkoset lepch (en)
1C50	1C7F	Ol chiki	U1C50	katso aakkoset santâlî
1C80	1C8F	Laajennettu kyrillinen C	U1C80	ks. kyrilliset aakkoset , kirkkoslaavi
1C90	1CBF	Laajennettu georgialainen	U1C90	katso georgialainen , georgialainen aakkoset
1CC0	1CCF	Sundanese-lisäosa	U1CC0	katso Soundanese , Sudanin aakkoset (en)
1CD0	1CFF	Vediset laajennukset	U1CD0	katso sanskritia
1D00	1D7F	Foneettinen lisäosa	U1D00	katso kansainvälinen foneettinen aakkoset
1D80	1DBF	Laajennettu foneettinen lisäosa	U1D80	katso kansainvälinen foneettinen aakkoset
1DC0	1DFF	Diakriitikot täydentävät	U1DC0	katso diakritinen
1E00	1EFF	Latinaksi laajennettu lisää	U1E00	katso latinalaiset aakkoset
1F00	1FFF	Laajennettu kreikka	U1F00	katso kreikan aakkoset , polytoninen kreikka
2000	206F	Yleiset välimerkit	U2000	katso välimerkit , välilyönti
2070	209F	Eksponentit ja indeksit	U2070	katso Eksponentti ja alaindeksi
20A0	20CF	Valuuttamerkit	U20A0	katso Valuuttamerkki
20D0	20FF	Yhdistelmämerkit symboleille	U20D0	katso nuoli , kierto
2100	214F	Kirjaintyyppiset symbolit	U2100	katso Lämpötila , Matemaattinen symboli , Tavaramerkkilakit
2150	218F	Numeromuodot	U2150	katso roomalainen numero , murtoluku
2190	21FF	Nuolet	U2190	katso nuoli
2200	22FF	Matematiikkaoperaattorit	U2200	katso matemaattiset operaattorit
2300	23FF	Erilaisia teknisiä merkkejä	U2300	katso kreikan aakkoset , välimerkit , nuoli , matemaattiset symbolit , emoji
2400	243F	Komennon kuvakkeet	U2400	katso ISO / IEC 8859 , ISO / IEC 646 , Control C0 (en)
2440	245F	Optinen hahmon tunnistus	U2430	katso Optinen merkintunnistus
2460	24FF	Aakkosnumeerinen ympyrä	U2460	katso latinalaiset aakkoset , arabialaiset numerot
2500	257F	Verkot	U2500	katso muodon piirustusmerkki (en)
2580	259F	Päällystekivet	U2580	katso Muotokuvan merkki (sisään) , Suorakulmio
25A0	25FF	Geometriset kuviot	U25A0	katso geometrinen muoto
2600	26FF	Erilaiset symbolit	U2600	katso symboli , emoji , ranskalainen korttipeli , shakki , sukupuolisymboli
2700	27BF	Casseau	U2700	katso symboli , arabialaiset numerot , välimerkit , emoji , matemaattiset operaattorit , nuoli
27C0	27EF	Erilaiset matemaattiset symbolit A	U27C0	katso matemaattinen symboli
27F0	27FF	Nuolien lisäys A	U27F0	katso nuoli
2800	28FF	Pistekirjoitusyhdistelmät	U2800	katso pistekirjoitus
2900	297F	Nuolien lisäys B	U2900	katso nuoli
2980	29FF	Erilaiset matemaattiset symbolit B	U2980	katso matemaattinen symboli
2A00	2AFF	Muita matemaattisia operaattoreita	U2A00	katso matemaattiset operaattorit
2B00	2BFF	Erilaisia symboleja ja nuolia	U2B00	katso nuoli , Emoji
2C00	2C5F	Glagootti	U2C00	ks. glagoliittinen aakkoset
2C60	2C7F	Latinalainen laajennettu C	U2C00	katso latinalaiset aakkoset , uiguurit
2C80	2CFF	Kopti	U2C80	katso koptilainen aakkoset
2D00	2D2F	Georgialainen lisäosa	U2D00	katso georgialainen , georgialainen aakkoset
2D30	2D7F	Tifinagh	U2D30	katso Tifinaghin ja berberin kielet
2D80	2DDF	Etiopian pidennetty	U2D80	katso Alphasyllabaire geez
2DE0	2DFF	Laajennettu kyrillinen A	U2DE0	ks. kyrilliset aakkoset , diakritikot , kyrillisten aakkosien diakritikot
2E00	2E7F	Välimerkkien lisäys	U2E00	katso välimerkit
2E80	2EFF	CJC-avainten muut muodot	U2E80	katso kiina, japani ja korea , sinogrammi , kiinalainen kirjoitus , kiinan kielet , pyhät kirjoitukset japani , japani , Hanja , korea
2F00	2FDF	Kiinalaiset Kangxi-avaimet	U2F00	katso Kangxi Character Dictionary
2FE0	2FEF	Varata	-	-
2FF0	2FFF	Ideografinen kuvaus	U2FF0	katso Ideografinen kuvaus
3000	303F	CJC-symbolit ja välimerkit	U3000	katso välimerkit , kiina, japani ja korea , sinogrammi , kiinalainen kirjoitus , kiinan kielet , pyhät kirjoitukset japani , japani , Hanja , korea
3040	309F	Hiragana	U3040	katso Hiragana , Japanin kirjoitukset , Japani
30A0	30FF	Katakana	U30A0	katso Katakana , Japanin kirjoitukset , Japani
3100	312F	Bopomofo	U3100	katso Bopomofo , kiina, japani ja korea , Sinogramme
3130	318F	Hangul-yhteensopivuusjamos	U3130	katso Hangûl , Sinogramme , korea
3190	319F	Kanbun	U3190	katso Kanbun , Sinogramme
31A0	31BF	Bopomofo laajennettu	U31A0	katso Bopomofo , Sinogramme
31C0	31EF	CJC-piirteet	U31C0	katso kiina, japani ja korea , sinogrammi , kiinalainen kirjoitus , kiinan kielet , pyhät kirjoitukset japani , japani , Hanja , korea
31F0	31FF	Katakana foneettinen laajennus	U31F0	katso Katakana , Japanin kirjoitukset , Japani
3200	32FF	Piirretty CJC: n kirjeet ja kuukaudet	U3200	katso luvut arabia , kiina, japani ja korea , sinogrammi , kiinalainen kirjoitus , kiinan kielet , pyhät kirjoitukset japani , japani , hanja , korea
3300	33FF	CJC-yhteensopivuus	U3000	ks . mittayksikkö , kiina, japani ja korea , sinogrammi , kiinalainen kirjoitus , kiinan kielet , pyhät kirjoitukset japani , japani , hanja , korea
3400	4DBF	CJC: n yhtenäisten ideogrammien lisäys A ( osa 1 ) ( osa 2 )	U3400	katso kiina, japani ja korea , sinogrammi , kiinalainen kirjoitus , kiinan kielet , pyhät kirjoitukset japani , japani , Hanja , korea
4DC0	4DFF	Hexagrammit klassisesta mutaatioista tai Yi Jing	U4DC0	katso Yi Jing , heksagrammi , kiina, japani ja korea , Sinogram
4E00	9FFF	CJC: n yhtenäiset ideogrammit ( osa 1 ) ( osa 2 ) ( osa 3 ) ( osa 4 ) ( osa 5 ) ( osa 6 )	U4E00	katso kiina, japani ja korea , sinogrammi , kiinalainen kirjoitus , kiinan kielet , pyhät kirjoitukset japani , japani , Hanja , korea , vietnam
A000	A48F	Tavoitteena on Fresh Mountains	UA000	ks. sanakirja yi
A490	A4CF	Yi-avaimet	UA490	ks. sanakirja yi
A4D0	A4FF	Lisu	UA4D0	katso Lisu , aakkoset Fraser (en)
A500	A63F	Vai	UA500	katso tavukirja vaï
A640	A69F	Laajennettu kyrillinen B	UA640	katso kyrilliset aakkoset
A6A0	A6FF	Bamoun	UA6A0	katso Bamoun-kirjoitus
A700	A71F	Äänimerkkien vaihtaminen	UA700	katso Kieli sävyinä , Kiinan kielet
A720	A7FF	Latinalainen laajennettu D	UA720	katso latinalaiset aakkoset
A800	A82F	Sylotî nâgrî	UA800	katso Sylotî nâgrî (en)
A830	A83F	Intian yleiset digitaaliset muodot	UA830	katso Intia
A840	A87F	Phags-pa	UA840	katso phagpa-komentosarja
A880	A8DF	Saurachtra	UA880	katso aakkoset Saurashtra (en)
A8E0	A8FF	Laajennettu devanāgarī	UA8E0	katso Devanâgarî
A900	A92F	Kayah li	UA900	katso aakkoset Kayah Li
A930	A95F	Rejang	UA930	katso Rejangin kirjoittaminen
A960	A97F	Jamos Hangul Laajennettu A	UA960	katso Hangûl , Sinogramme , korea
A980	A9DF	Jaava	UA980	katso jaavan kirja
A9E0	A9FF	Burmalainen jatkoi B: tä	UA9E0	katso burmalainen , burmalainen kirjoitus
AA00	AA5F	Cham	UAA00	katso Cham
AA60	AA7F	Burmalainen jatkoi A	UAA60	katso burmalainen , burmalainen kirjoitus
AA80	AADF	Tai viet	UAA80	katso aakkoset taï viêt , Tay-pato , Tay don , Tay Song ( fr )
AAE0	AAFF	Meitei mayek pidennetty	UAAE0	katso Meitei , Meitei- käsikirjoitus
AB00	AB2F	Etiopian laajennettu A	UAB00	katso Alphasyllabaire geez
AB30	AB6F	Latinalainen laajennettu E	UAB30	katso latinalaiset aakkoset , Teuthonista , Alphabet d'Ascoli , aakkoset Rousselot-Gilliéron
AB70	ABBF	Cherokee-lisäosa	UAB70	katso Cherokee Syllabary
ABC0	ABFF	Meitei mayek	UABC0	katso Meitei , Meitei- käsikirjoitus
AC00	D7AF	Hangul-tavut ( osa 1 ) ( osa 2 ) ( osa 3 ) ( osa 4 )	UAC00	katso Hangûl , Sinogramme , korea
D7B0	D7FF	Jamos Hangul Laajennettu B	U27B0	katso Hangûl , Sinogramme , korea
D800	DBFF	Suuri suuntaamaton puolivyöhyke	UD800	katso suuntaamaton ylempi puolivyöhyke
DC00	DFFF	Matala suuntaamaton puolivyöhyke	UDC00	katso matalan suuntaussuunnan puolivyöhyke
E000	F8FF	Yksityisen käytön alue ( osa 1 ) ( osa 2 )	UE000	Ei virallisesti määriteltyä ominaisuutta
F900	FAFF	CJC-yhteensopivuusideogrammit	UF900	katso kiina, japani ja korea , sinogrammi , kiinalainen kirjoitus , kiinan kielet , pyhät kirjoitukset japani , japani , Hanja , korea
FB00	FB4F	Aakkoselliset esityslomakkeet	UFB00	katso latinalaiset aakkoset , heprean aakkoset , armenialaiset aakkoset
FB50	FDFF	Arabiankieliset esityslomakkeet A ( osa 1 ) ( osa 2 ) ( osa 3 )	UFB50	katso arabian aakkoset
FE00	FE0F	Vaihtoehtovalitsimet	UFE00	katso valitsimien muunnos (sisään)
FE10	FE1F	Pystysuorat muodot	UFE10	katso välimerkit , GB 18030
FE20	FE2F	Kombinatoriset puolimerkit	UFE20	katso diakritinen
FE30	FE4F	CJC-yhteensopivuuslomakkeet	UFE30	katso kiina, japani ja korea , sinogrammi , kiinalainen kirjoitus , kiinan kielet , pyhät kirjoitukset japani , japani , Hanja , korea
FE50	FE6F	Pienet muodon vaihtelut	UFE50	katso välimerkit , GBK , GB 2312 , CNS 11643 (en)
FE70	FEFF	Arabiankieliset esityslomakkeet B	UFE70	katso arabian aakkoset
FF00	FFEF	Puoli- ja täysleveät muodot	UFF00	nähdä muodot puoliksi ja täysleveinä , kiina, japani ja korea , sinogrammi , kiinalainen kirjoitus , kiinan kielet , pyhät kirjoitukset japani , japani , Hanja , korea , ASCII , latina aakkoset
FFF0	FFFF	Erikoismerkit	UFFF0	katso Erikoismerkit

Täydentävä monikielinen suunnitelma (PMC, 10000 - 1FFFF)

Koodipisteet		Virallinen estonimi	Virallinen PDF	Lue lisää
alkaa	Loppu	Virallinen estonimi	Virallinen PDF	Lue lisää
10000	1007F	Lineaarinen sanakirja B	U10000	katso lineaarinen B
10080	100FF	Lineaariset B-ideogrammit	U10080	katso lineaarinen B
10100	1013F	Egeanmeren numerot	U10100	katso Numerot iEgean (en)
10140	1018F	Muinaiset kreikkalaiset numerot	U10140	katso muinaiset kreikkalaiset numerot
10190	101CF	Muinaiset symbolit	U10190	katso Rooman yksiköt , Rooman valuutta
101D0	101FF	Phaistos-levy	U101D0	katso Phaistos Disc
10200	1027F	Varata	-	-
10280	1029F	Lycian	U10280	katso Lycien
102A0	102DF	Carien	U102A0	katso Carian-aakkoset
102E0	102FF	Koptien epact-numerot	U102E0	katso kopti
10300	1032F	Kursiivi aakkoset	U10300	katso vanha kursivoitu aakkoset
10330	1034F	gotiikka	U10330	katso goottilainen
10350	1037F	Vanha permian	U10350	katso vanha Permin aakkoset
10380	1039F	Ugaritic	U10380	katso Ugaritin aakkoset
103A0	103FF	Vanha persialainen	U103A0	katso vanha persia
10400	1044F	Deseret	U10400	katso aakkoset
10450	1047F	Shavien	U10450	katso shavian aakkoset
10480	104AF	Osmanya	U10480	katso Osmanyan aakkoset
104B0	104FF	Osage	U104B0	katso Osage
10500	1052F	Elbasan	U10500	katso Elbasanin käsikirjoitus
10530	1056F	Agganialainen	U10530	katso Aghbanian aakkoset
10570	105FF	Varata	-	-
10600	1077F	Lineaarinen A	U10600	katso lineaarinen A
10780	107FF	Varata	-	-
10800	1083F	Kyproksen sanakirja	U10800	ks. Kyproksen sanakirja
10840	1085F	Keisarillinen aramea	U10840	katso aramean aakkoset
10860	1087F	Palmyrenian aakkoset	U10860	katso Palmyrenian aakkoset
10880	108AF	Nabataean	U10880	katso Nabatean aakkoset
108B0	108DF	Varata	-	-
108E0	108FF	Hatrenian	U108E0	katso Hatrénien-aakkoset ( fr )
10900	1091F	Foinikialainen	U10900	katso foinikialaiset aakkoset
10920	1093F	Lydian	U10920	katso Lydian aakkoset
10940	1097F	Varata	-	-
10980	1099F	Meroitic hieroglyfit	U10980	katso Meroitic-kirjoitus
109A0	109FF	Meroitic Cursive	U109A0	katso Meroitic-kirjoitus
10A00	10A5F	Kharochthî	U10A00	katso aakkoset kharoshthi
10A60	10A7F	Etelä-arabia	U10A60	katso Etelä-Arabian aakkoset
10A80	10A9F	Pohjois-arabia	U10A80	katso vanha arabiarkisto (en)
10AA0	10ABF	Varata	-	-
10AC0	10AFF	Manichean	U10AC0	katso Manichean aakkoset (en)
10B00	10B3F	Avestic	U10B00	katso Avestin aakkoset (en)
10B40	10B5F	Partialaiset kirjoitukset	U10B40	katso partialaiset kirjoitukset (en)
10B60	10B7F	Pehlevi kirjoituksista	U10B60	katso pehlevi-käsikirjoitus
10B80	10BAF	Pehlevi psaltereista	U10B80	katso pehlevi-pyhien kirjoitusten kohta , Psalter
10BB0	10BFF	Varata	-	-
10C00	10C4F	Orkhon	U10C00	katso Orkhonin aakkoset
10C50	10C7F	Varata	-	-
10C80	10CFF	Vanha unkari	U10C80	katso Unkarin runot
10D00	10E5F	Varata	-	-
10E60	10E7F	Rumin digitaaliset symbolit	U10E60	katso Fezin , Fezin kuvat
10E80	10FDF	Varata	-	-
10FE0	10FFF	Elymaic	U10FE0	katso Élymaïque (en)
11000	1107F	Brahmin	U11000	katso Brahmi
11080	110CF	Khaithi	U11080	katso Khaithi
110D0	110FF	Sora sompeng	U110D0	katso aakkoset sora sompeng (en)
11100	1114F	Chakma	U11100	katso Ojhapath
11150	1117F	Mahajanî	U11150	katso Mahâjanî (in)
11180	111DF	Charada	U11180	katso Alabyllabary sharda
111E0	111FF	Singhalilaiset arkaaiset numerot	U111E0	katso Singhalese
11200	1124F	Khojki	U11200	katso Khojki (en)
11250	1127F	Varata	-	-
11280	112AF	Multani	U11280	katso Multanin aakkoset (en)
112B0	112FF	Khudabadi	U112B0	katso Kirjoittaminen Khudabadi (en)
11300	1137F	Grantha	U11300	katso Grantha
11380	113FF	Varata	-	-
11400	1147F	Newa	U11400	katso aakkoset Newa (en)
11480	114DF	Tirhuta	U11480	katso Tirhuta
114E0	1157F	Varata	-	-
11580	115FF	Siddham	U11580	katso alabylabary siddham
11600	1165F	Modi	U11600	katso Modi Alphasyllabary
11660	1167F	Mongolilainen täydennysosa	U11660	katso mongolia
11680	116CF	Takri	U11680	katso aakkoset Takri (en)
116D0	116FF	Varata	-	-
11700	1173F	Ahom	U11700	katso Alphasyllabaire âhom
11740	1189F	Varata	-	-
118A0	118FF	Warang citi	U118A0	katso Warang Citi (en)
11900	11999	Varata	-	-
119A0	119FF	nandinâgarî	U119A0	katso Nandinagari (en)
11A00	11A4F	Toissijainen Zanabazar	U11A00	katso Zanabazar , mongolialainen
11A50	11AAF	Soyombo	U11A50	katso soyombo-komentosarja
11AB0	11ABF	Varata	-	-
11AC0	11AFF	Paou leuka haou	U11AC0	katso Paou chin haou (en) kirjoittaminen
11B00	11BFF	Varata	-	-
11C00	11C6F	Bhaiksuki	U11C00	katso aakkoset Bhaiksuki (en)
11C70	11CBF	Marchen	U11C70	katso Zhang-zhung
11CC0	11CFF	Varata	-	-
11D00	11D5F	Masaram gondi	U11D00	katso Masaram Gondi (en) , Gondi
11D60	11FBF	Varata	-	-
11FC0	11FFF	Tamil-lisäosa	U11FC0	katso tamili
12000	123FF	Nuolenpääkirjoitus	U12000	katso kiintolevy
12400	1247F	Välimerkit ja kiintolevyt	U12400	katso kiintolevy
12480	1254F	Arkaaisten dynastioiden kiilamuoto	U12480	katso kiintolevy
12550	12FFF	Varata	-	-
13000	1342F	Egyptiläiset hieroglyfit	U13000	katso egyptiläiset hieroglyfit
13430	1343F	Egyptiläiset hieroglyfiset muotoilun ohjaimet	U13430	katso egyptiläiset hieroglyfit
13440	143FF	Varattu (osa 1) (osa 2)	-	-
14400	1467F	Anatolian hieroglyfit	U14400	katso Anatolian hieroglyfit
14680	167FF	Varattu (osa 1) (osa 2) (osa 3)	-	-
16800	16A3F	Bamoun-lisäosa	U16800	katso Bamoun-kirjoitus
16A40	16A6F	Mro	U16A40	katso kieli-esittely (en)
16A70	16ACF	Varata	-	-
16AD0	16AFF	Bassa	U16AD0	katso aakkoset bassa
16B00	16B8F	Pahawh hmong	U16B00	katso Pahawh hmong
16B90	16EFF	Varata	-	-
16F00	16F9F	Miao	U16F00	katso Miaon kirjoittaminen (en)
16FA0	16FDF	Varata	-	-
16FE0	16FFF	Ideografiset symbolit ja välimerkit	U16FE0	katso Ideogrammi , Tangut- kirjoitus , Nüshu
17000	187FF	Tangoute (osa 1) (osa 2)	U17000	katso Tangouten kirjoittaminen
18800	18AFF	Tangut-komponentit	U18800	katso Tangouten kirjoittaminen
18B00	1AFFF	Varattu (osa 1) (osa 2) (osa 3)	-	-
1B000	1B0FF	Kana-lisäosa	U1B00	katso japani , japanilaiset kirjoitukset , Kana
1B100	1B12F	Laajennettu Kana A	U1B100	katso japani , japanilaiset kirjoitukset , Kana , Hentaigana
1B130	1B16F	Pidennys pieni kana	U1B130	katso japani , japanilaiset kirjoitukset , Kana , Hentaigana
1B170	1B2FF	Nüshu	U1B170	katso Nüshu
1B300	1BBFF	Varata	-	-
1BC00	1BC9F	Monistettu lyhytkirja	U1BC00	katso Stenography , Émile Duployé
1BCA0	1CFFF	Varattu (osa 1) (osa 2)	-	-
1D000	1D0FF	Bysantin musiikkisymbolit	U1D000	katso bysanttilainen musiikki
1D100	1D1FF	Länsimaiset musiikkisymbolit	U1D100	nähdä länsimaista musiikkia
1D200	1D24F	Muinaisen Kreikan nuotinnus	U1D200	katso antiikin Kreikan musiikki
1D250	1D2FF	Varata	-	-
1D300	1D35F	Korkeimman mysteerin klassiset symbolit	U1D300	katso Tai Xuan Jing (en)
1D360	1D37F	Kiinalaiset kepit	U1D360	katso Baarilaskenta
1D380	1D3FF	Varata	-	-
1D400	1D7FF	Aakkosnumeeriset matemaattiset symbolit	U1D400	katso matemaattinen symboli , latinalaiset aakkoset , arabialaiset numerot
1D800	1DAAF	Suttonin merkkien kirjoittaminen	U1D800	katso Kirjoitusmerkit
1DAB0	1DFFF	Varata	-	-
1E000	1E02F	Glagoliittilisäaine	U1E000	ks. glagoliittinen aakkoset
1E030	1E0FF	Varata	-	-
1E100	1E14F	Nyiakeng puachue hmong	U1E800	katso Nyiakeng puachue hmong (en)
1E150	1E2DF	Varata	-	-
1E2C0	1E2FF	Wancho	U1E2C0	katso Wancho
1E300	1E7FF	Varata	-	-
1E800	1E8DF	Kerjääminen kikakui	U1E800	katso Kikakui
1E8E0	1E8FF	Varata	-	-
1E900	1E95F	Adlam	U1E900	katso aakkoset adlam
1E960	1ECFF	Varata	-	-
1ED00	1ED4F	Syaq-luvut	U1ED00
1ED50	1ECFF	Varata	-	-
1EE00	1EEFF	Arabialaiset matemaattiset aakkoset	U1EE00	katso arabialainen matematiikka
1EF00	1EFFF	Varata	-	-
1F000	1F02F	Mahjong-palat	U1F000	katso Mah-jong
1F030	1F09F	Domino	U1F030	katso Dominos
1F0A0	1F0FF	Pelikortit	U1F0A0	katso Pelikortit
1F100	1F1FF	Ympyröity aakkosnumeerinen lisäys	U1F100	katso PRIA STD-B24 (en)
1F200	1F2FF	Piirretty ideografinen lisäys	U1F200	katso PRIA STD-B24 (en)
1F300	1F5FF	Erilaiset symbolit ja kuvakkeet	U1F300	katso Piktogrammi , Emoji
1F600	1F64F	Hymiöt	U1F600	katso hymiö , hymiö
1F650	1F67F	Koristeellinen kasetti	U1F650	katso Wingdings
1F680	1F6FF	Kuljetus- ja kartografiset symbolit	U1F680	katso liikenne , kartografia , emoji
1F700	1F77F	Alkeemiset symbolit	U1F700	katso Alkemia
1F780	1F7FF	Laajennetut geometriset muodot	U1F780	katso geometrinen muoto
1F800	1F8FF	Nuolien lisäys C	U1F800	katso nuoli
1F900	1F9FF	Lisäsymbolit ja kuvakkeet	U1F900	katso Piktogrammi , Hymiö , Emoji
1FA00	1FA6F	Varata	-	-
1FA70	1FAFF	Symbolit ja kuvakkeet laajennettu-A	U1FA70	katso Piktogrammi , Emoji
1FB00	1FFFF	Varata	-	-

Täydentävä ideografinen suunnitelma (PIC, 20000 - 2FFFF)

Koodipisteet		Virallinen estonimi	Lue lisää
alkaa	Loppu	Virallinen estonimi	Lue lisää
20000	2A6DF	CJC: n yhtenäisten ideogrammien täydennysosa B ( osa 1 ) ( osa 2 ) ( osa 3 ) ( osa 4 ) ( osa 5 ) ( osa 6 ) ( osa 7 ) ( osa 8 ) ( osa 9 ) ( osa 10 ) ( osa 11 )	katso kiina, japani ja korea
2A6E0	2A6FF	Varata	-
2A700	2B73F	CJC: n yhtenäisten ideogrammien täydennysosa C ( osa 1 ) ( osa 2 )	katso kiina, japani ja korea
2B740	2B81F	Täydennysosa D yhtenäisiin CJC-ideogrammeihin	katso kiina, japani ja korea
2B820	2CEAF	Täydennä E yhtenäisiin CJC-ideogrammeihin	katso kiina, japani ja korea
2CEB0	2EBEF	Täydennysosa F yhtenäisiin CJC-ideogrammeihin	katso kiina, japani ja korea
2EBF0	2F7FF	Varata	-
2F800	2FA1F	CJC-yhteensopivuusideogrammien täydennysosa	katso kiina, japani ja korea
2FA20	2FFFF	Varata	-

Varattu täydentäviä suunnitelmia (30000 DFFFF: lle)

Koodipisteet		Virallinen estonimi	Lue lisää
alkaa	Loppu	Virallinen estonimi	Lue lisää
30000	3FFFF	Varattu ( osa 1 ) ( osa 2 ) ( osa 3 ) ( osa 4 ) ( osa 5 ) ( osa 6 ) ( osa 7 ) ( osa 8 ) ( osa 9 ) ( osa 10 ) ( osa 11 ) ( osa 12 ) ( Osa 13 ) ( Osa 14 ) ( Osa 15 ) ( Osa 16 ) ( Osa 17 )	Suunnitelma 3
40 000	4FFFF	Varattu ( osa 1 ) ( osa 2 ) ( osa 3 ) ( osa 4 ) ( osa 5 ) ( osa 6 ) ( osa 7 ) ( osa 8 ) ( osa 9 ) ( osa 10 ) ( osa 11 ) ( osa 12 ) ( Osa 13 ) ( Osa 14 ) ( Osa 15 ) ( Osa 16 ) ( Osa 17 )	Suunnitelma 4
50000	5FFFF	Varattu ( osa 1 ) ( osa 2 ) ( osa 3 ) ( osa 4 ) ( osa 5 ) ( osa 6 ) ( osa 7 ) ( osa 8 ) ( osa 9 ) ( osa 10 ) ( osa 11 ) ( osa 12 ) ( Osa 13 ) ( Osa 14 ) ( Osa 15 ) ( Osa 16 ) ( Osa 17 )	Suunnitelma 5
60 000	6FFFF	Varattu ( osa 1 ) ( osa 2 ) ( osa 3 ) ( osa 4 ) ( osa 5 ) ( osa 6 ) ( osa 7 ) ( osa 8 ) ( osa 9 ) ( osa 10 ) ( osa 11 ) ( osa 12 ) ( Osa 13 ) ( Osa 14 ) ( Osa 15 ) ( Osa 16 ) ( Osa 17 )	Suunnitelma 6
70 000	7FFFF	Varattu ( osa 1 ) ( osa 2 ) ( osa 3 ) ( osa 4 ) ( osa 5 ) ( osa 6 ) ( osa 7 ) ( osa 8 ) ( osa 9 ) ( osa 10 ) ( osa 11 ) ( osa 12 ) ( Osa 13 ) ( Osa 14 ) ( Osa 15 ) ( Osa 16 ) ( Osa 17 )	Suunnitelma 7
80 000	8FFFF	Varattu ( osa 1 ) ( osa 2 ) ( osa 3 ) ( osa 4 ) ( osa 5 ) ( osa 6 ) ( osa 7 ) ( osa 8 ) ( osa 9 ) ( osa 10 ) ( osa 11 ) ( osa 12 ) ( Osa 13 ) ( Osa 14 ) ( Osa 15 ) ( Osa 16 ) ( Osa 17 )	Suunnitelma 8
90 000	9FFFF	Varattu ( osa 1 ) ( osa 2 ) ( osa 3 ) ( osa 4 ) ( osa 5 ) ( osa 6 ) ( osa 7 ) ( osa 8 ) ( osa 9 ) ( osa 10 ) ( osa 11 ) ( osa 12 ) ( Osa 13 ) ( Osa 14 ) ( Osa 15 ) ( Osa 16 ) ( Osa 17 )	Suunnitelma 9
A0000	AFFFF	Varattu ( osa 1 ) ( osa 2 ) ( osa 3 ) ( osa 4 ) ( osa 5 ) ( osa 6 ) ( osa 7 ) ( osa 8 ) ( osa 9 ) ( osa 10 ) ( osa 11 ) ( osa 12 ) ( Osa 13 ) ( Osa 14 ) ( Osa 15 ) ( Osa 16 ) ( Osa 17 )	Suunnitelma 10
B0000	BFFFF	Varattu ( osa 1 ) ( osa 2 ) ( osa 3 ) ( osa 4 ) ( osa 5 ) ( osa 6 ) ( osa 7 ) ( osa 8 ) ( osa 9 ) ( osa 10 ) ( osa 11 ) ( osa 12 ) ( Osa 13 ) ( Osa 14 ) ( Osa 15 ) ( Osa 16 ) ( Osa 17 )	Suunnitelma 11
C0000	CFFFF	Varattu ( osa 1 ) ( osa 2 ) ( osa 3 ) ( osa 4 ) ( osa 5 ) ( osa 6 ) ( osa 7 ) ( osa 8 ) ( osa 9 ) ( osa 10 ) ( osa 11 ) ( osa 12 ) ( Osa 13 ) ( Osa 14 ) ( Osa 15 ) ( Osa 16 ) ( Osa 17 )	Suunnitelma 12
D0000	DFFFF	Varattu ( osa 1 ) ( osa 2 ) ( osa 3 ) ( osa 4 ) ( osa 5 ) ( osa 6 ) ( osa 7 ) ( osa 8 ) ( osa 9 ) ( osa 10 ) ( osa 11 ) ( osa 12 ) ( Osa 13 ) ( Osa 14 ) ( Osa 15 ) ( Osa 16 ) ( Osa 17 )	Suunnitelma 13

Erikoistunut täydentävä suunnitelma (PCS, E0000 - EFFFF)

Koodipisteet		Virallinen estonimi	Kommentit
alkaa	Loppu	Virallinen estonimi	Kommentit
E0000	E007F	Tarrat
E0080	E00FF	Varata	-
E0100	E01EF	Vaihtoehtoiset valitsimet täydentävät
E01F0	EFFFF	Varattu ( osa 1 ) ( osa 2 ) ( osa 3 ) ( osa 4 ) ( osa 5 ) ( osa 6 ) ( osa 7 ) ( osa 8 ) ( osa 9 ) ( osa 10 ) ( osa 11 ) ( osa 12 ) ( Osa 13 ) ( Osa 14 ) ( Osa 15 ) ( Osa 16 ) ( Osa 17 )	-

Lisäsuunnitelmat yksityiseen käyttöön (F0000 - 10FFFF)

Koodipisteet		Virallinen estonimi	Virallinen PDF	Kommentit
alkaa	Loppu	Virallinen estonimi	Virallinen PDF	Kommentit
F0000	FFFFF	Lisävyöhyke A yksityiseen käyttöön ( osa 1 ) ( osa 2 ) ( osa 3 ) ( osa 4 ) ( osa 5 ) ( osa 6 ) ( osa 7 ) ( osa 8 ) ( osa 9 ) ( osa 10 ) ( osa 11 ) ( Osa 12 ) ( Osa 13 ) ( Osa 14 ) ( Osa 15 ) ( Osa 16 ) ( Osa 17 )	UF0000	Ei virallisesti määriteltyä ominaisuutta
100 000	10FFFF	Lisävyöhyke B yksityiseen käyttöön ( osa 1 ) ( osa 2 ) ( osa 3 ) ( osa 4 ) ( osa 5 ) ( osa 6 ) ( osa 7 ) ( osa 8 ) ( osa 9 ) ( osa 10 ) ( osa 11 ) ( Osa 12 ) ( Osa 13 ) ( Osa 14 ) ( Osa 15 ) ( Osa 16 ) ( Osa 17 )	U100000	Ei virallisesti määriteltyä ominaisuutta

Yksityiskäyttöön tarkoitetuilla alueilla ei ole samoja silmiä fontista toiseen, ja siksi niitä tulisi välttää koodattaessa heterogeenisten järjestelmien välisiä vaihtoon tarkoitettuja tekstejä. Nämä yksityisen käytön koodipisteet ovat kuitenkin kelvollisia ja niitä voidaan käyttää missä tahansa Unicode- ja ISO / IEC 10646 -standardien mukaisessa automatisoidussa prosessoinnissa , myös eri järjestelmien välillä, jos niiden käytöstä on yksityinen keskinäinen sopimus.

Jos molemmat osapuolet eivät ole sopineet siitä, näitä merkkejä käyttävät järjestelmät voivat hylätä niitä sisältävät tekstit, koska niiden käsittely ei voinut toimia oikein tai aiheuttaa turvallisuusongelmia; muiden järjestelmien, jotka eivät omista näille merkeille mitään erityistoimintoa, on toisaalta hyväksyttävä ne kelvollisiksi ja pidettävä ne kiinteänä osana tekstejä, ikään kuin ne olisivat graafisia symboleja, vaikka he eivät osaa näyttää oikein.

Ei-merkit ovat kelvollisia koodipisteitä, mutta niitä ei määritetä (eikä koskaan tule) standardoiduille merkeille. Niiden käyttö järjestelmien välillä lähetettyjen tekstien (vaikka ne olisivatkin samanlaisia) koodauksessa on kielletty, koska niitä on mahdotonta tehdä yhteensopiviksi vastaavien koodausten kanssa standardoitujen yleisten muunnosmuotojen (mukaan lukien UTF-8, UTF-16, UTF-32) ja muut standardoitu koodauksia sopusoinnussa Unicode ja ISO / IEC 10646 ( BOCU -1, SCSU , eri versioita kiinalainen standardi GB 18030 , jne. ). Jotkut järjestelmät kuitenkin tuottavat ja käyttävät niitä paikallisesti, mutta tiukasti sisäiseen käsittelyyn, jonka on tarkoitus helpottaa tekstinkäsittelyalgoritmien toteuttamista muita standardoituja merkkejä käyttäen.

Viimeksi mainittujen ei-merkkien joukossa on kelvollisia koodipisteitä, jotka on varattu puolialueille (yksityisille tai ei). Näitä koodipisteitä ei voida käyttää erikseen merkin koodaamiseen. Niitä käytetään vain UTF-16-universaalimuunnosmuodossa (ja vastaavissa koodausmenetelmissä) edustamaan kahdessa koodipisteessä (kussakin 16 bittiä) kelvollisia koodipisteitä yhdessä 16 täydentävästä tasosta (tietyt koodipisteiden yhdistelmät vastaavat kelvollisia merkkejä nämä suunnitelmat, tavalliset tai yksityiset, muut yhdistelmät eivät välttämättä kuvaa mitään kelvollista luonnetta, koska ne vastaavat näiden täydentävien suunnitelmien muita kuin merkkejä, ja ovat siksi kiellettyjä standardin mukaisissa teksteissä.

Muut vapaat alueet (joita ei ole osoitettu standardoidulle nimetylle lohkolle tai koodikohdat, jotka on jätetty vapaiksi ja varattu olemassa oleviin nimettyihin lohkoihin) on varattu tulevaa käyttöä varten tulevissa Unicode- ja ISO / IEC 10646 -versioissa , mutta ovat kelvollisia. Kaikkien järjestelmien, jotka käsittelevät näitä varattuja koodipisteitä sisältäviä tekstejä, on hyväksyttävä ne suodattamatta. Unicode määrittelee oletetut vastaavat merkit oletusominaisuuksien säilyttämiseksi (Unicode-standardin mukaisten) järjestelmien yhteensopivuus tulevaisuuden niitä vastaavien tekstien kanssa. Mikään vaatimustenmukainen sovellus ei saa antaa heille erikoismerkkiä tai semantiikkaa (yksityiset alueet on tarkoitettu tähän käyttöön).

Huomautuksia ja viitteitä

(in) " ilmoittaessaan Unicode® Standard Version 12.0 " on Unicode blogi ,5. maaliskuuta 2019
(en) [1] .
(in) " Web-sivustojen merkintäkoodausten käyttötilastot , tammikuu 2017 " osoitteessa w3techs.com (käytetty 6. tammikuuta 2017 ) .
" Unicode 7.0 lisää 250 emojia , keskisormi mukaan lukien " sivustolla nextinpact.com ,16. kesäkuuta 2014(käytetty 20. tammikuuta 2016 ) .
(in) " Unicode 8 : Mitä ja milloin " päällä emojipedia.org ,17. kesäkuuta 2015(käytetty 20. tammikuuta 2016 ) .
(in) " Unicode® 9.0.0 " osoitteessa http://unicode.org/ (käytetty 23. huhtikuuta 2018 ) .
(in) " Unicode® 10.0.0 " osoitteessa http://unicode.org/ (käytetty 23. huhtikuuta 2018 ) .
(in) " Unicode® 11.0.0 " osoitteessa http://unicode.org/ (käytetty 23. huhtikuuta 2018 ) .
(in) " Unicode® 12.0.0 " osoitteessa http://unicode.org/ ( käyty 6. maaliskuuta 2019 ) .
Inc Unicode , " Annicing The Unicode® Standard, versio 13.0 " (käytetty 26. toukokuuta 2020 )
(in) Unicode-tekninen raportti # 17: Unicode-merkkikoodausmalli .
(in) " UTF-8, muodonmuutoksen formaatteja ISO 10646 " Kommenttipyyntö n o 3629,marraskuu 2003.
(in) Unicode-standardin versio 5.0 , luku 16 : Erityisalueet ja muotoiluhahmot [PDF] - Unicode, Inc., s. 354 .
UTF-8-sekvenssien tulisi olla mahdollisimman lyhyitä. Tämä rajoitus on tarkistettava tiettyjen tietoturva-aukkojen, kuten "/../" , välttämiseksi - katso lisätietoja UTF-8- artikkelin "Haitat" -osiosta .
(in) " koodi Apache Xalan 2.7.0 qui: ssä, voimmeko epäonnistua korvikkeissa " , Apache Foundation .
http://unicode.org/charts/PDF/U2B820.pdf
http://unicode.org/charts/PDF/U2CEB0.pdf
http://unicode.org/charts/PDF/U2EBF0.pdf
http://unicode.org/charts/PDF/U30000.pdf
http://unicode.org/charts/PDF/U40000.pdf
http://unicode.org/charts/PDF/U50000.pdf
http://unicode.org/charts/PDF/U60000.pdf
http://unicode.org/charts/PDF/U70000.pdf
http://unicode.org/charts/PDF/U80000.pdf
http://unicode.org/charts/PDF/U90000.pdf
http://unicode.org/charts/PDF/UA0000.pdf
http://unicode.org/charts/PDF/UB0000.pdf
http://unicode.org/charts/PDF/UC0000.pdf
http://unicode.org/charts/PDF/UD0000.pdf
http://unicode.org/charts/PDF/UE0080.pdf
http://unicode.org/charts/PDF/UE01F0.pdf

Katso myös

Aiheeseen liittyvät artikkelit

Unicode-merkkitaulukko
Sinografisten merkkien yhdistäminen (Unihan)
Luettelo valmiiksi ladatuista latinalaisista Unicode-merkeistä
Unicode-merkkien kopiointi
APL / APL2-merkit Unicode-muodossa
Stringprep
Ilmaiset unicode-fontit

Ulkoiset linkit

Normatiiviset viitteet

(en) Unicode-konsortion kotisivu .
- (en) Unicode-standardi - pysyvä linkki Unicode-standardin uusimpaan julkaistuun versioon.
- (en) UAX # 41: Yleiset viitteet UAX: ille - virallinen luettelo viitteistä, joita käytetään Unicode-standardissa.
- (en) Unicode-tekniset raportit - standardoidut liitteet, tekniset standardit ja tekniset raportit (jotkut vanhemmille Unicoden versioille).
- (en) " Unicode-merkkitaulukot, joihin on merkitty vastaavuus " ( Arkisto • Wikiwix • Archive.is • Google • Mitä tehdä? ) - PDF-dokumenttien kokoelma.
- (en) UTS # 10: Unicode Collation Algorithm (UCA) - Unicode-standardoitu aikataulutusalgoritmi (tekstin lajitteluun, tunnistamiseen tai etsimiseen).
(en) RFC 3629 : UTF-8, muunnosmuoto ISO 10646 - standardi (marraskuu 2003); Korvaa RFC 2279 (vanhentunut).

Informatiiviset viitteet

(fr) ISO / IEC 10646- ja Unicode-standardien virallinen ranskankielinen käännös .
(fr) Unicode 5.0 käytännössä , kirjoittanut Patrick Andries, julkaisija Dunod (Huhtikuu 2008) - hakuteos.
(en) RFC 1641 : Unicoden käyttö MIME: n kanssa - kokeellinen (Heinäkuu 1994)
(en) RFC 2152 : UTF-7, Mail-Safe Transformation Format of Unicode - kokeellinen (Toukokuu 1997); korvaa RFC 1642 (vanhentunut)
(en) RFC 2482 : Kielen merkitseminen pelkässä Unicode-tekstissä - informatiivinen (Tammikuu 1999)
(en) RFC 3718 : Yhteenveto Unicode-konsortion menettelyistä, politiikoista, vakaudesta ja julkisesta saatavuudesta - informatiivinen (Helmikuu 2004)
(en) RFC 5891 : Internationalized Domain Names in Applications (IDNA): Protokolla - ehdotettu standardi; Korvaa RFC 3490 ja RFC 3491 (vanhentunut), päivittää RFC 3492 Punycode
(in) Unicode - elokuva Kaikki 109242 Unicode 6.0 -hahmoa yhdessä elokuvassa

Taulukot ja tiedot

(en) Unicode-fonttien galleria : luettelo 1239 fontista (elokuu 2007) ja merkit, jotka he ymmärtävät.
(en) Unicode ja monikielinen tuki HTML: ssä, kirjasimissa, selaimissa ja muissa sovelluksissa , Alan Woodin sivusto, jossa luetellaan Unicode-lohkot testisivuilla, neuvoja ja linkkejä resursseihin, kirjasimiin ja apuohjelmiin kyseisten lohkojen syöttämiseen ja näyttämiseen verkossa selaimet tai muut ohjelmistot.
(en) (de) Dekoodaa Unicode , Wiki, jossa luetellaan ja kommentoidaan kaikki 98884 Unicode-merkkiä kuvissa.
(fr) CoeurLumiere.com , yksinkertainen taulukko Unicode- merkkeistä välillä U + 0000 - U + FFFF (huomaa, että jotkut ovat virheellisiä HTML-muodossa ja niistä ei ilmoiteta).

Käyttö ohjeet

(en) Markus Kuhn, UTF-8 ja Unicode FAQ
(en) Kuinka käyttää Unicodea ilmaiseksi GNU / Linux-järjestelmissä tai yhteensopivissa.
(en) Fontes et codages -kirjan 2, 3 ja 4 luku .
(en) Foneettisten merkkien syöttäminen ja vaihtaminen Unicoden kanssa aloittelijoiden käyttöön.
(en) Esimerkki Unicoden käytöstä ja testit .
(en) Web-sovelluksesi Unicode-ohjelmassa (artikkeli ja opetusohjelma Unicoden käytöstä PHP: n ja MySQL: n kanssa sekä asiakaspuolen toteutus XML- , HTML- ja CSS-asiakirjoissa )

Keskustelut ja artikkelit

(en) Unicode, maailman kirjoittaminen? ( nide 6 (2003) lehdestä Digital Document , 364 sivua ). Mielenkiinto: kriittiset näkökulmat (typografit, tietojenkäsittelytieteen tutkijat, egyptologit jne. ) Ja haastattelu Unicode-konsortion teknisen johtajan Ken Whistlerin kanssa .
(en) Otfried Cheong, UniHan (artikkeli Sinogrammi yhdistymisen ongelmia kanssa UniHan Unicode)