Unicode on tietokonestandardi, joka mahdollistaa tekstien vaihdon eri kielillä globaalilla tasolla. Sen on kehittänyt Unicode-konsortio , jonka tavoitteena on koodata kirjoitettu teksti antamalla minkä tahansa kirjoitusjärjestelmän jokaiselle merkille nimi ja numeerinen tunniste yhtenäisellä tavalla, riippumatta tietokoneen alustasta tai käytetystä ohjelmistosta .
Tämä standardi liittyy standardiin ISO / IEC 10646 kuvaa vastaavien merkkien taulukon. Viimeisin versio, Unicode 13.0 , julkaistiin vuonnamaaliskuu 2020.
Täysin yhteensopiva ISO / IEC 10646: n yleisen merkistöjen (UIC) kanssa , Unicode-standardi laajentaa sitä lisäämällä täydellisen mallin esityksestä ja tekstinkäsittelystä, joka antaa jokaiselle merkille joukon ominaisuuksia (jotka voivat olla joko joillekin standardoituja ja vakautettuja kaikki Unicode-versiot, joissa merkki on koodattu, tai informatiivinen, vain niiden käyttöä koskeva suositus, joka voi kehittyä löydettyjen uusien tarpeiden mukaan). Nämä ominaisuudet kuvaavat tarkasti semanttisia suhteita, joita voi esiintyä tekstin useiden peräkkäisten merkkien välillä, ja mahdollistavat standardoinnin tai suosituksen käsittelyalgoritmeille, jotka säilyttävät muunnettujen tekstien semantiikan mahdollisimman paljon. Unicode pyrkii tekemään saman tekstin käytettäväksi identtisesti täysin erilaisissa tietokonejärjestelmissä.
Unicode-standardi koostuu 143859 merkin ohjelmistosta, joka kattaa yli 150 komentosarjaa, joukon kooditaulukoita visuaalista viittausta varten, koodausmenetelmän ja useita vakiomerkkikoodauksia, luettelomerkin ominaisuudet (isot, pienet, APL , symbolit, välimerkit) , jne. ) joukosta viite tietokoneen tiedostojen, ja useita siihen liittyviä elementtejä, kuten normalisoinnin sääntöjä, kaksisuuntainen hajoaminen, lajittelu, tekee ja näyttöjärjestys (näyttää oikein tekstin, joka sisältää sekä oikealta vasemmalle kirjoitusmerkit, kuten arabia ja heprea ja vasemmalta oikealle).
Käytännössä Unicode sisältää täysin ISO / IEC 10646 -standardin , koska jälkimmäinen standardoi vain yksittäiset merkit antamalla niille nimen ja normatiivisen numeron (kutsutaan koodipisteeksi ) ja hyvin rajoitetun informatiivisen kuvauksen, mutta ei käsittelyä tai määrittelyä tai suositusta niiden käyttämiseen. käyttö kirjoitettaessa todellisia kieliä, jotka vain Unicode-standardi määrittelee tarkasti. ISO / IEC 10646 on ohjeellisesti viitataan osiin Unicode-standardia (mukaan lukien kaksisuuntaisen algoritmin ja luonne ominaisuudet (in) ); Unicode on myös tosiasiallinen tekstinkäsittelystandardi ja toimii perustana monille muille standardeille.
Kirjalliset kielet:
[L] ogografinen ja [S] yllabic
Abjad ( semiittiset kielet)
Unicode, jonka ensimmäinen julkaisu on vuodelta Lokakuu 1991, kehitettiin korvaamaan kansallisten koodisivujen käyttö .
Näillä koodisivuilla oli menneisyydessä ongelmia. Esimerkiksi EBCDIC : ssä toimivilta 3270 päätelaitteelta : kun sähköisessä muistiossa oli "valuuttamerkki" -merkki, sama teksti, joka rajoittaisi amerikkalaisen lukijan dollareina käyttämiä kuluja, näyttäisi Ison-Britannian näytöllä saman määrän puntaa , koska valuutta merkki oli erilainen molemmissa maissa.
Käytännössä kaikkia kirjoitusjärjestelmiä ei ole vielä läsnä, koska dokumenttien tutkimustyö asiantuntijoiden kanssa voi silti osoittautua välttämättömäksi harvinaisille hahmoille tai vähän tunnetuille kirjoitusjärjestelmille (koska ne ovat esimerkiksi kadonneet).
Kuitenkin maailmassa eniten käytetyt käsikirjoitukset, säännöt hahmojen semantiikasta , niiden sävellyksistä ja näiden eri järjestelmien yhdistämisestä ovat edustettuina . - Esimerkiksi kuinka lisätä oikealta vasemmalle -kirjoitusjärjestelmä vasemmalta oikealle -kirjoitusjärjestelmään ( kaksisuuntainen teksti ).
UTF-8-muodossaan Unicode tarjoaa jonkin verran yhteentoimivuutta ASCII- koodin kanssa .
Unicode-standardi määrittelee vaatimukset prosessin (tai ohjelmiston) toteutuksen vaatimustenmukaisuuden arvioimiseksi Unicode . Nämä vaatimukset koskevat erityisesti ( versiossa 4.0 ):
Nämä vaatimukset sallivat Unicoden osajoukon tuen.
Vaikka ISO / IEC 10646 määrittelee saman merkistöjoukon kuin Unicode, ero ISO / IEC 10646: n ja Unicoden välillä johtuu pääasiassa Unicoden vaatimasta vaatimustenmukaisuuden vaatimuksesta.
Unicode on vuonna 2016 johtava standardi tietokonemerkkien koodaukselle. Sitä käytetään ohjelmistojen yhteentoimivuuteen, ja sen avulla voidaan esimerkiksi kopioida tekstejä eri aakkosilla varustetuilla merkeillä eri ohjelmistojen välillä, vaikka niitä ei olisikaan erityisesti suunniteltu niitä varten (esimerkiksi APL- merkkinen ohjelma LibreOffice- tekstissä tai sähköpostissa Gmailissa ). Kaikkia Unicode-tekstejä ei kuitenkaan ole koodattu samalla tavalla. Hyväksytystä Unicode-standardoinnista riippuen sama graafinen merkki voidaan joskus koodata eri tavoin. Jotkut tekstit käyttävät NFC yleissopimus , toiset NJP yleissopimus , jne Ja standardi ei kiellä useiden käytäntöjen sekoittamista samaan tekstiin. Sama pätee ohjelmistoihin.
Tämä samanaikaisesti useita eri tapoja kirjoittaa sama asia hyväkseen hakkerit vuonna 2000-luvulla , jonka avulla ne voivat ohittaa suodattimet: hakkerit ohittaa kiellot tiettyjen merkkijonojen pidetä vaarallisena yksinkertaisesti kirjaavat niitä toisessa muodossa., Harvinaisempia ja siksi joskus suodattamaton.
Unicode reagoi näihin rajoituksiin tarjoamalla kanonisen vastaavuuden käsitteen .
Unicode-työ on rinnakkainen ja synkronoitu ISO / IEC 10646 -standardin kanssa, jonka tavoitteet ovat samat. ISO / IEC 10646 , kansainvälinen standardi julkaistaan ranskaksi ja Englanti, joka ei määritä sääntöjä koostumusta merkkejä tai semanttisen ominaisuuksia merkkiä.
Unicode käsittelee kuitenkin kirjainkokoa , aakkosjärjestystä sekä aksenttien ja merkkien yhdistelmää . Koska Unicode versiota 1.1 ja kaikissa myöhemmissä versioissa, hahmot ovat samat tunnisteet kuin edellä ISO / IEC 10646-standardin : hakemistot pidetään rinnakkain, samanlaisia aikana lopullinen standardointia, kaksi standardia ovat päivityksiä lähes samanaikaisesti. Kaksi standardia: Unicode ( versiosta 1.1 lähtien ) ja ISO / IEC 10646 takaavat täydellisen yhteensopivuuden taaksepäin: kaiken aiemman version mukaisen tekstin on pysyttävä yhteensopivana myöhemmissä versioissa.
Näin ollen Unicode- version 3.0 merkit ovat ISO / IEC 10646: 2000 -standardin merkkejä . Versio 3.2 Unicode sijoittui 95221, symboleja ja direktiivejä.
Versio 4.1 Unicode, päivitettymarraskuu 2005, sisältää :
eli yhteensä lähes 245 000 koodipistettä, jotka on varattu tilaan, joka voi sisältää 1 114 112 eri koodia.
Kiinalaisia merkkejä koodattaessa näyttää kuitenkin olevan joitain ongelmia , koska eri kielillä käytetyt ideografiset joukot yhdistyvät hieman erilaisella ja joskus merkityksellisellä kalligrafialla, mutta ongelmat ratkaisee Unicode, joka on määritellyt valitsimet. avasi vakiojärjestysrekisterin, joka käyttää niitä.
Versio | Julkaisupäivämäärä | Uudet hahmot |
---|---|---|
1.0.0 | Lokakuu 1991 | |
1.0.1 | Kesäkuu 1992 | |
1.1 | Kesäkuu 1993 | |
2.0 | Heinäkuu 1996 | |
2.1 | Toukokuu 1998 | |
3.0 | Syyskuu 1999 | |
3.1 | Maaliskuu 2001 | |
3.2 | Maaliskuu 2002 | |
4.0 | Huhtikuu 2003 | |
4.1 | Maaliskuu 2005 | |
5.0 | heinäkuu 2006 | |
5.1 | Maaliskuu 2008 | |
5.2 | lokakuu 2009 | |
6.0 | helmikuu 2011 | |
6.1 | 31. tammikuuta 2012 | |
7.0 | 16. kesäkuuta 2014 | 2834 uutta merkkiä, mukaan lukien hymiöt . |
8.0 | 17. kesäkuuta 2015 | 7716 merkkiä, mukaan lukien monet hymiöt. |
9.0 | 21. kesäkuuta 2016 | 7500 uutta merkkiä (mukaan lukien 72 hymiötä). |
10.0 | 20. kesäkuuta 2017 | 8518 uutta merkkiä (mukaan lukien 56 hymiötä). |
11.0 | 5. kesäkuuta 2018 | 684 uutta merkkiä (mukaan lukien 66 emojia). |
12.0 | 5. maaliskuuta 2019 | 554 uutta merkkiä. |
13.0 | 10. maaliskuuta 2020 | 5390 uutta merkkiä |
Unicode määritellään kerrostetun mallin mukaan ( tekninen huomautus Unicode n o 17 ). Muut standardit eivät tyypillisesti erottaneet merkistöä ja fyysistä esitystä. Kerrokset esitetään tässä alkaen korkeimmasta (kauimpana koneesta).
Abstraktien hahmojen hakemisto (abstrakti hahmoryhmä )Yläkerros on merkistöjoukon määritelmä. Esimerkiksi Latin-1: ssä on 256 merkistöä, kun taas Unicode standardoi tällä hetkellä lähes 110 000 merkkiä. Lisäksi Unicode antaa nimen jokaiselle näistä merkeistä.
Merkkiluettelo nimineen muodostaa siis Unicode-sovelluskerroksen.
Esimerkiksi merkki Ç on nimeltään "latinalainen iso kirjain c cedilla".
Tämä määritelmä on täysin identtinen ISO / IEC 10646: n määritelmän kanssa, joka hyväksyy kaikki hakemiston laajennukset. Unicode käyttää standardinsa tekstissä vain englanninkielisiä normatiivisia nimiä, mutta ISO / IEC 10646 -standardi julkaistaan kahdella yhtä normatiivisella kielellä. Niinpä englannin- ja ranskankieliset nimet ovat standardoituja.
Itse asiassa kaikki hakemiston laajennukset tehdään nyt ISO / IEC 10646: sta vastaavan työryhmän ( JTC1 / SC2 / WG2 , jonka äänioikeutetut jäsenet ovat vain osallistuvien maiden kansallisia standardointiviranomaisia, tai heidän virallisen edustajansa) välillä. Unicode UTC: n tekninen komitea (jonka äänioikeutettuja jäseniä voivat olla yksityiset tai julkisen edun organisaatiot tai jopa hallitukset, jotka ovat liittyneet ja maksavat vuosimaksun osallistumisesta näihin päätöksiin).
Koodattu merkistö ( koodattu merkistö )Tässä kuhunkin merkkiin liittyvä numero lisätään edelliseen taulukkoon. Huomaa, että tämä ei ole muistin esitys, vain kokonaisluku, jota kutsutaan koodipisteeksi . Näiden numeroiden koodaustila on jaettu 17 alueeseen 65 536 koodipisteestä. Näitä alueita kutsutaan lentokoneiksi .
Koodi kohta on huomattava, "U + xxxx", jossa "xxxx" on heksadesimaali- ja on 4 kohteeseen 6 numeroa :
Siten merkillä, jonka nimi on "latinalainen iso kirjain c cedilla" (Ç), on numero U + 00C7. Se kuuluu etualalle.
Periaatteessa kaikki koodipisteet välillä U + 0000 - U + 10FFFF ovat käytettävissä, mutta tietyt intervallit on varattu jatkuvasti tiettyihin käyttötarkoituksiin, erityisesti suljettuun suuntavyöhykkeeseen UTF-16-koodauksen sallimiseksi ( katso alla), yksityiseen käyttöön tarkoitetuille alueille ja jotkut alueet (esim. U + FFFE tai U + FFFF), jotka sisältävät merkkejä, joiden käyttö on kielletty yhteensopivassa tiedonvaihdossa. Muut koodipisteet on joko jo osoitettu merkkeille tai varattu tulevaa standardointia varten.
Alue yksityiseen käyttöön: Unicode on määrännyt useita koodipisteitä kelvollisille merkeille, mutta joiden semantiikkaa ei tunneta yksityisen käytön vuoksi (esimerkiksi kaksi viimeistä suunnitelmaa välillä U + F0000 - U + 10FFFF on omistettu kokonaan tälle käytölle, lukuun ottamatta kahta koodia jokaisen suunnitelman lopussa olevat kohdat, jotka ovat kiellettyjä, ei-merkit yhteensopivassa tekstissä).
Tässäkin koodausstandardointi, ts. Koodipisteiden osoittaminen merkkeihin yhteisessä ohjelmistossa on Unicode- ja ISO / IEC 10646 -standardien välinen yhteinen päätös . Kaikilla hakemiston merkeillä on ainutlaatuinen koodipiste (vaikka joillakin kielillä tai Unicodella jotkut merkit katsotaan vastaaviksi).
Voidaan huomata, että jos merkkihakemisto on laajennettavissa, sitä rajoittaa koodaustilan yläraja: U + 10FFFF. Suurin osa mahdollisista koodipisteistä ei liity mihinkään tiettyyn merkkiin, mutta ne voivat olla milloin tahansa.
Näitä edelleen vapaita koodipisteitä ei pidetä virheellisinä, mutta ne edustavat abstrakteja merkkejä (ei vielä määritelty ja tilapäisesti varattu). Nämä abstraktit merkit (samoin kuin yksityiseen käyttöön tarkoitetut merkit) täydentävät standardoidun hakemiston koodatun merkistöä yhdeksi peliksi, jota kutsutaan " universaaliksi koodatuksi merkistöksi " ( Universal Coded Character Set , usein lyhennettynä UCS: ksi ), joka sisältää kaikki hakemistojen koodatut merkit. ISO / IEC 10646: n ja Unicoden jokaisen aiemman, nykyisen ja tulevan version ( vain versiosta 1.1 lähtien ).
Formalismin merkkien koodaus ( merkkien koodausmuoto )Tällä kertaa aikaan fyysinen esitys (muistiin, levylle, jne.): Tämä kerros määritellään, mitkä koodausyksikön ( koodi yksikköä ), tai codet , edustaa merkin tai tarkemmin koodi piste: tavu , seizet (vuonna ) (16-bittinen sana) tai kolmekymmentä deuzet (en) (32-bittinen sana).
Näitä formalismeja voi olla (ja on) useita. Erityisen formalismin on määriteltävä koodausyksikön koko ja ilmoitettava, kuinka koodipistettä edustava kokonaisluku on esitetty koodausyksiköiden sarjassa - ja päinvastoin, eli kuinka löytää koodipiste, joka antaa koodausyksiköiden sarjan.
Mekanismin sarjallisuusmerkit ( merkkien koodausjärjestelmä )Tämä kerros huolehtii edellisen kerroksen määrittelemien koodausyksiköiden sekvenssien järjestämisestä tavusekvensseiksi. Täällä tavujen järjestys valitaan big-endianin (ensin merkittävin tavu) ja little-endianin (ensin vähiten merkitsevä tavu) välillä.
Tässä vaiheessa on myös mahdollista lisätä tavujärjestysindikaattori (tai BOM, tavujärjestysmerkille ), joka ilmaisee tiedoston tai datavirran alussa, onko kyseessä big-endian vai little-endian. Internet-maailmassa sitä käytetään harvoin, mieluummin nimenomaisen merkinnän (esim. " Charset = UTF-16BE " MIME -ohjelmassa osoittaakseen big-endian-tietovirran, jossa BE tarkoittaa big endian ).
Ylikoodauksen siirto ( siirtokoodauksen syntakse )Tässä valinnaiset pakkaus- tai salausmekanismit.
LDAP: lle voi olla myös ylikoodaus, joka määrittää, että Unicode-merkkijonot tulisi koodata UTF-8: ssa ja ylikoodata Base64: ssä .
Aikaisempien standardien (bittisarja, esitys) jäykkien rajoitusten voittamiseksi Unicode erottaa vastedes toisaalta merkistöjoukon määritelmän (merkkiluettelo nimensä mukaan) ja indeksin, koodipisteen , koodauksesta . Siksi emme voi puhua Unicode-merkin koosta, koska se riippuu valitusta koodauksesta, ja tämä voi siksi vaihdella haluamallasi tavalla. Käytännössä UTF-8: ta käytetään laajalti länsimaissa.
Jos ASCII käyttää 7 bittiä ja ISO / IEC 8859-1 8 bittiä (kuten useimmat kansalliset koodisivut), Unicode, joka kerää merkit kustakin koodisivusta, tarvitaan yli 8 bitin yhden tavun käyttämiseen . Rajaksi asetettiin alun perin 16 bittiä Unicoden varhaisille versioille ja 32 bittiä ISO / IEC 10646 : n varhaisille versioille .
Nykyinen raja on nyt asetettu välillä 20 ja 21 bittiä koodipistettä kohti, jotka on osoitettu standardoiduille merkeille kahdessa nyt yhteensopivassa standardissa:
Unicode ja ISO / IEC 10646 hyväksyvät useita universaalimuunnosmuotoja edustamaan kelvollista koodipistettä. Lainataan:
Numero UTF: n jälkeen edustaa vähimmäismäärää koodipisteitä , joiden kanssa kelvollinen koodipiste on esitetty.
Nämä muunnokset luotiin alun perin ISO / IEC 10646 : n sisäisen esityksen ja koodipisteiden koodausjärjestelmille , jotka alun perin pystyivät määrittelemään 31-bittiset koodipisteet. Siitä lähtien ISO / IEC 10646 -standardia on muutettu siten, että nämä kolme lomaketta ovat täysin yhteensopivia keskenään ja mahdollistavat kaikkien koodipisteiden koodaamisen (koska UTF-16 sallii vain ensimmäisten 17 tason koodipisteiden edustettuina).
Unicode on myös hyvin standardisoinut nämä kolme muunnosmuotoa kaikista voimassa olevista koodipisteistä (U + 0000 - U + D7FF ja U + E000 - U + 10FFFF) ja vain niistä, edustavatko ne tekstiä koodipisteiden muotosekvensseissä, tai koodipisteet, jotka on osoitettu kelvollisille merkeille, varattu tai osoitettu muille kuin merkkeille. Puolivyöhykkeille (U + D800 - U + DFFF) osoitetut koodipisteet, joita käytetään vain UTF-16: ssa, ovat erikseen virheellisiä, koska niitä käytetään kahden 16-bittisen koodipisteparin avulla edustamaan koodipisteitä 16 lisäsuunnitelmaan.
UTF-8UTF-8 , on määritelty RFC 3629, on yleisin sovellukset Unix ja Internetissä . Sen erikokoisen koodauksen ansiosta se voi olla keskimäärin halvempaa muistin käytössä (latinalaisilla aakkosilla). Mutta tämä merkittävästi hidastaa operaatioita osa-merkkijono uuttokertaa joissakin kielissä jonka indeksi jousille kokonaislukuja (esim = "815 : nnen luonne merkkijono"), koska se on tarpeen laskea merkkejä merkkijonon alusta lukien tietää missä ensimmäinen purettava merkki on.
UTF-8 tarjoaa myös, ja tämä on sen tärkein etu, yhteensopivuus yksinkertaisen merkkijonon manipulaation kanssa ASCII: ssä ohjelmointikielissä . Siksi C- kirjoitetut ohjelmat voivat usein toimia ilman muutoksia.
Aluksi UTF-8 voisi koodata minkä tahansa koodipisteen välillä U + 0000 ja U + 7FFFFFFF (eli enintään 31 bittiä). Tämä käyttö on vanhentunut, ja ISO / IEC 10646-standardin on muutettu tukemaan vain oikea koodi olevia ensimmäisen 17 laukausta, paitsi ne, joilla on puoli-vyöhyke , joka vastaa koodia, joita käytetään UTF-16 edustusta kaksi koodia 16 lisäsuunnitelman koodipisteet. Myös UTF-8: n pisimmät sekvenssit vaativat enintään 4 tavua aikaisemman 6: n sijaan. Lisäksi UTF-8 muutettiin ensin Unicode: lla ja sitten ISO / IEC 10646: lla, jotta se hyväksyisi vain kunkin koodipisteen lyhimmän esityksen ( koodauksen ainutlaatuisuus ). Tosiasia, että sama merkki voidaan edustaa useilla eri tavoilla, aiheutti turvallisuusongelmia, koska hakkeri pystyi ohittamaan "suodatetun" muodon eri kirjoituksella.
Sen etuna UTF-16: een (ja UTF-32: een) verrattuna on, että sanan muodostavien tavujen järjestyserot ( endianisuus ) eivät aiheuta ongelmaa heterogeenisten järjestelmien verkossa; siis tätä muunnosta käytetään nykyään useimmissa standardoiduissa vaihtoprotokollissa.
Toisaalta UTF-8 on täysin yhteensopiva tekstien siirtämiseen ASCII-merkistöön perustuvien protokollien avulla tai voidaan tehdä yhteensopivaksi (muiden kuin ASCII-merkkien monitavuisen muuntamisen kustannuksella) tukevien vaihto-protokollien kanssa 8-bittiset koodatut merkistöt (perustuvatko ne ISO / IEC 8859 -standardiin tai moniin muihin 8-bittisiin koodattuihin merkistöihin, jotka on määritelty kansallisissa standardeissa tai erityisissä omistetuissa järjestelmissä).
Sen tärkein haittapuoli on hyvin vaihtelevan pituinen koodaus (1 tavu ASCII: lle osoitetuille koodipisteille - ISO / IEC 646 merkkiä , 2 - 4 tavua muille koodipisteille), vaikka UTF-8: lle ominainen automaattinen synkronointi koodaus antaa mahdollisuuden määrittää sekvenssin alku satunnaisesta sijainnista (suorittamalla enintään 3 lisälukua edellisistä koodipisteistä). Tätä koodausta ei kuitenkaan ole suunniteltu helpottamaan merkkijonojen käsittelyä: suosimme usein UTF-16, joskus UTF-32 (ahne muistissa).
JohdannaisetUTF-16 on hyvä kompromissi, kun muistia ei ole liian pieni, sillä valtaosa Unicode osoitettu kirjoituksia nykykielten (mukaan lukien yleisimmin käytetty merkkiä) ovat monikielisiä suunnitelmassa pohja ja voidaan siis esittää 16 bitillä. ISO / IEC 10646: n ranskankielisessä versiossa näitä 16-bittisiä sanoja kutsutaan "takavarikoiksi", mutta kansainvälisessä versiossa niitä kuitenkin kuvataan klassisiksi 16-bittisiksi sanoiksi, jotka koostuvat kahdesta tavusta ja joihin sovelletaan tavallisia endismin sääntöjä .
hei \ lo | DC00 | DC01 | ... | DFFF |
---|---|---|---|---|
D800 | 10000 | 10001 | ... | 103FF |
D801 | 10400 | 10401 | ... | 107FF |
⋮ | ⋮ | ⋮ | ⋱ | ⋮ |
DBFF | 10FC00 | 10FC01 | ... | 10FFFF |
Kuusitoista ylimääräisen tason koodipisteet vaativat muunnoksen kahdelle 16-bittiselle sanalle:
Koska suurin osa yleisimmin käytetyistä merkeistä asuu perustasossa, lisäleikkeiden koodausta testataan usein huonosti ohjelmistossa, mikä johtaa virheisiin tai turvallisuusongelmiin jopa laajalti jaetuissa ohjelmistoissa. Tietyt oikeudelliset kehykset, kuten GB 18030 , voivat pyytää tukea lisäsuunnitelmille , jotka sisältävät erityisesti oikeissa nimissä olevia merkkejä.
Koodaavan sekvenssin alku on mahdollista määrittää mistä tahansa UTF-16: ssa esitetyn tekstin kohdasta suorittamalla enintään yksi lisälukema vain, jos tämä koodipiste on alemmalla puolialueella. Tämä muoto on taloudellisempi ja helpompi käsitellä nopeasti kuin UTF-8, kun kyseessä on vain vähän ASCII-merkkejä sisältävien tekstien esittäminen (U + 0000 - U + 007F).
Tällä muunnoksella on kuitenkin kaksi yhteensopimatonta koodausmenetelmää, jotka riippuvat tavujen järjestyksestä 16-bittisessä kokonaislukuesityksessä. Tämän epäselvyyden poistamiseksi ja siirtämisen sallimiseksi heterogeenisten järjestelmien välillä on tarpeen lisätä tietoja, jotka osoittavat käytetyn koodausmenetelmän (UTF-16BE tai UTF-16LE), tai etuliitettävä koodattu teksti koodipisteen edustuksella. Kelvollinen U + FEFF (määritetty merkille "nollaleveyden murtumaton tila", merkki, joka on varattu tälle ainoalle käytölle tavun järjestysmerkkinä), koska koodipiste "päinvastainen" U + FFFE voimassa on ei-merkki, joka on kielletty teksteissä Unicode ja ISO / IEC 10646 .
Toinen UTF-16: n virhe on, että sen kanssa muunnettu ja jommallakummalla koodausmenetelmällä lähetetty teksti sisältää suuren määrän tavuja, jotka ovat tyhjiä tai joiden arvo on ristiriidassa d-arvojen kanssa. 'Tavut, jotka on varattu tietyillä vaihtoprotokollilla.
Tämä on erityisesti koodaus, jota Java- alusta käyttää sisäisesti, samoin kuin Windows Unicode-yhteensopiville sovellusliittymille (tyypin kanssa wchar).
UTF-32UTF-32 käytetään, kun muistia ei ole ongelma, ja meidän on saada merkkiä suoraan ja ilman koon muutosta ( egyptiläinen hieroglyphs ).
Tämän standardoidun muunnoksen etuna on, että kaikilla koodielementeillä on sama koko. Siksi ei ole tarpeen lukea ylimääräisiä koodipisteitä koodipisteen esityksen alun määrittämiseksi.
Tämä muoto on kuitenkin erityisen epäekonominen (myös muistissa), koska se "hukkaa" tarpeettomasti vähintään yhden tavun (aina nolla) merkkiä kohden. Tekstin koko muistilla vaikuttaa negatiivisesti suorituskykyyn, koska se vaatii enemmän luku- ja kirjoituslevyjä, jos RAM-muistia on täynnä , ja se vähentää myös prosessorien muistivälimuistin suorituskykyä.
Teksteille, jotka on kirjoitettu nykyisillä moderneilla kielillä (lukuun ottamatta tiettyjä harvinaisia merkkejä täydentävästä ideografisesta tasosta) ja siten vain monikielisen perustason koodipisteitä käytettäessä, tämä muunnos kaksinkertaistaa tarvittavan muistin määrän verrattuna UTF-16: een.
Kuten UTF-16, UTF-32: lla on useita koodausmenetelmiä riippuen tavujen järjestyksestä, joka muodostaa yli 8 bitin kokonaisluvun (kaksi UTF-32: n koodausjärjestelmää on standardoitu, UTF-32BE ja UTF-32LE). Siksi on myös tarpeen määrittää tämä koodausmenetelmä tai määrittää se etuliittämällä teksti koodipisteen U + FEFF edustuksella UTF-32: ssa. Kuten UTF-16, null-tavujen läsnäolo UTF-32: n standardoiduissa koodausjärjestelmissä tekee siitä yhteensopimattoman monien heterogeenisten järjestelmien välisen vaihdon protokollien kanssa.
Myös tätä muotoa käytetään useimmiten vain hyvin paikallisesti tietyssä prosessoinnissa helpommin käsiteltävänä välimuotona, ja suosimme usein UTF-16-muunnosta, joka on usein tehokkaampi suurten tekstimäärien käsittelyssä ja varastoinnissa, muuntaminen nämä kaksi ovat erittäin yksinkertaisia suorittaa ja erittäin halpoja käsittelyn monimutkaisuuden kannalta.
Itse asiassa monet tekstinkäsittelykirjastot on kirjoitettu vain UTF-16: lla ja ne ovat tehokkaampia kuin UTF-32, vaikka tekstit sisältävät merkkejä ylimääräisistä tasoista (koska tämä kuviotapaus on harvinainen useimmissa tapauksissa).
Huomaa kuitenkin, että muunnos UTF-32: ksi käyttää 32-bittisiä koodipisteitä, joista monet eivät välttämättä edusta mitään kelvollista koodipistettä (arvot kahden aikavälin ulkopuolella, jotka edustavat kelvollisia koodipisteitä U + 0000 - U + D7FF ja U + E000 - U + 10FFFF), joten ei kelvollista tai varattua merkkiä (kaikki sen sisältämät tiedot eivät siis voi olla tekstiä Unicode-merkityksessä). Tekstien lähettäminen käyttämällä näitä virheellisiä koodiarvoja yhdessä UTF-32: n standardoiduista koodausjärjestelmistä on kielletty missään Unicode-yhteensopivassa järjestelmässä (koodipisteitä on käytettävä sen sijaan yksityiseen käyttöön), koska se on mahdotonta. edustaa niitä toisessa UTF-muunnoksessa, jonka kanssa kolme standardoitua UTF: ää ovat bijectively yhteensopivia.
Tämä on Unicoden muunnos, jota ei määrittele Unicode-konsortio, vaan standardihallinto Kiinassa, jossa sen tuki on pakollista sovelluksissa. Historiallisesti tämä oli koodattu merkistö, jota on laajennettu tukemaan koko UCS-ohjelmistoa algoritmisella muunnoksella, joka täydentää suuren koodista koodiin -vastaavuustaulukon.
Sen väittäminen, että Unicode koodaa merkkejä, tarkoittaa väitettä, että se antaa numeron abstrakteille symboleille loogisen koodauksen periaatteen mukaisesti. Toisaalta Unicode ei koodaa merkkien, kuvioiden graafisia esityksiä . Siksi hahmon esityksen ja numeron välillä ei ole bijectionia , koska kaikki tyylin graafiset muunnelmat ovat yhtenäisiä.
Lisäksi, toisin kuin perinteinen ASCII- tai Latin-1- fontti , glyfin valinta koodilla ei ole ainutlaatuinen ja usein kontekstuaalinen, ja se voi myös näyttää saman kuvion eri koodeille. Näin ollen ranskalaista merkkiä "é" voidaan kuvata kahdella tavalla: joko käyttämällä suoraan "é": tä vastaavaa lukua tai seuraamalla "e": n numeroa akuutin aksentin numerolla ilman metsästystä. Minkä vaihtoehdon valitset, sama kuvio näytetään. Ensimmäisestä merkistä sanotaan, että se on esisommiteltu, toisesta, että se on sävellys (kaksi merkkiä muodostaa yhden kuvion, joka koostuu molemmista). Tämä on sallittua ja jopa erittäin suositeltavaa, koska Unicode luokittelee koodauksen eri muodot "kanonisesti vastaaviksi", mikä tarkoittaa, että kahta vastaavaa koodauksen muotoa tulisi kohdella identtisesti.
Monet komposiittimerkit ovat tässä tapauksessa, ja ne voidaan koodata näillä kahdella tavalla (tai enemmän, jotkut komposiittimerkit voidaan hajottaa useammalla kuin yhdellä tavalla, varsinkin kun niillä on useita diakriittejä). Useimmiten esisommiteltu merkki on suositeltavin tekstin koodaukselle, jos sellainen on olemassa (tämä pätee esimerkiksi polytoniseen kreikkalaiseen , joka hajotettuna koodattu ei välttämättä ole graafisesti tyydyttävä: fonttien merkkien mukaan eri glyfin osat ovat joskus huonosti järjestettyjä ja vaikeasti luettavia). Kaikilla yhdistelmämerkeillä ei kuitenkaan ole ainutkertaista koodipistettä esisommiteltuun muotoonsa.
Samoin jotkut kirjoitusjärjestelmät, kuten Devânagarî , persia tai arabia , vaativat ligatuurien monimutkaisen käsittelyn : grafeemit muuttavat muotoa sijaintinsa tai naapureidensa mukaan (ks. Kontekstuaalinen muunnos ja Yhteinen kirje ). Oikean kuvamerkin valitseminen edellyttää käsittelyä sen määrittämiseksi, mikä kontekstuaalinen muoto fontista valitaan, vaikka kaikki asiayhteyteen liittyvät muodot koodattaisiin samalla tavalla Unicode-koodissa.
Näistä syistä Unicode-kirjasinta tulisi käsitellä varoen. Esimerkiksi fontti, jossa on kaikki olemassa olevat kuviot, ei riitä. On myös välttämätöntä, että näyttöjärjestelmällä ( renderointimoottorilla ) on mekanismit, jotka pystyvät käsittelemään ligatuureja , asiayhteyteen liittyviä muunnelmia ja tietyille kielille ominaisia yhteisiä muotoja. Kääntäen fontti, joka edustaa vain osaa merkistä, mutta osaa näyttää ne oikein, ansaitsee paremmin "Unicode-fontin" otsikon. Lopuksi tietyt fonttimuotojen tekniset rajoitukset voivat estää niitä tukemasta koko hakemistoa. Käytännössä on mahdotonta (vuonna 2009) löytää yhtä kirjasinta, joka tukee koko hakemistoa.
Unicode-merkkifontti on siten vain kirjasin, jonka avulla on mahdollista näyttää teksti, joka on koodattu kaikissa Unicoden hyväksymissä muodoissa, ja mahdollistaa yhden tai useamman kielen mukaisen yhtenäisen osajoukon tukemaan yhtä tai useampaa komentosarjaa. Mikään Unicode-kirjasinlaji ei voi "toimia" yksinään, ja täysi kirjoittamistuki vaatii näiden tukemista renderointimoottorissa , joka pystyy havaitsemaan vastaavat koodauslomakkeet, etsimään asiayhteyteen liittyviä muotoja tekstistä ja valitsemaan Unicode-koodatun kirjasimen eri kuviot, käyttämällä itse kirjasimeen sisältyviä vastaavuustaulukoita tarvittaessa.
ICU cross-platform ohjelmistokirjasto avulla voit muokata dataa koodataan Unicode. Alustakohtainen Unicode-tuki on integroitu myös moderneihin järjestelmiin ( Java , Microsoft Windows , GNU / Linux , tavalliset C / C ++ -kirjastot , Python jne.).
Unicode-muuttujien tallentamiseen käytettävät tyypit:
Ohjelmointikieli | Kirjoita yhdelle merkille | Kirjoita tekstiä varten |
---|---|---|
VS | char[4] Missä wchar_t[2] | char[] Missä wchar_t[] |
C ++ | char[4] Missä wchar_t[2] | char[]tai wchar_t[]tai std::stringtaistd::wstring |
Java | char[2] Missä int | char[] Missä String |
ICU-kirjasto (C / C ++ tai Java) | UChar | UChar[]tai String,UnicodeString |
JavaScript tai ECMAScript | char | string |
C # tai J # | char | string |
Delfoi | char[4] Missä widechar[2] | string Missä widestring |
Python 2 | unicode | |
Python 3 | str | |
Mennä | rune(= int32) | string Missä []byte |
Nopea | Character | String |
Unicode kärsii kuitenkin edelleen heikosta tuesta joidenkin ohjelmistojen säännöllisille lausekkeille , vaikka kirjastot, kuten ICU ja Java, voivat tukea niitä. Tällaista tukea ei ole vielä standardoitu ECMAScriptille, ja sitä tarjotaan vain sellaisten kirjastojen avulla, jotka on luotu kielellä tai liitännöillä yhteentoimivuuteen muiden järjestelmien (erityisesti CORBA , COM ) kanssa tai kielten (erityisesti C ++ ja Java ) kanssa.
Ajantasainen osiointi löytyy viralliselta Unicode-verkkosivustolta. Ottaen kuitenkin huomioon Unicoden tärkeä rooli tänään ( ISO / IEC 10646 ), päähenkilölohkot kuvataan tässä. Ranskalaiset nimet ovat kansainvälisen kaksikielisen standardin ISO / IEC 10646 virallisia nimiä, jotka käyttävät samoja merkkejä kuin Unicode. Ne ovat yhtä virallisia kuin englanninkieliset nimet.
Vanha Unicode 1.0 -standardi on vanhentunut ja yhteensopimaton ISO / IEC 10646: n ja Unicode 1.1: n ja kaikkien sen myöhempien versioiden kanssa. tärkein yhteensopimattomuus on korealaisen kielen kirjoittamiseen käytettyjen Hangul-merkkilohkojen sijainti, jotka ovat muuttaneet sijaintia ja joiden vanhat koodipisteet on sittemmin osoitettu muille lohkoille. Alla oleva taulukko on yhteensopiva ISO / IEC 10646: n (kaikki versiot) ja Unicode 1.1: n (tai uudemman) kanssa.
Huom. Lohkonimien tapaus ei ole normatiivinen. "Latin Latin" vastaa siis "BASIC LATIN" -merkkiä.
Seuraavissa taulukoissa mikä tahansa virallinen Unicode PDF -tietoon liittyvä muistiinpanon nimi tarkoittaa, että kyseiseen lohkoon liittyvää Wikipedia-sivua ei ole tai se on virheellinen.
Monikielinen perussuunnitelma (PMB, 0000 - FFFF)Koodipisteet | Virallinen estonimi | Virallinen PDF | Lue lisää | |
---|---|---|---|---|
alkaa | Loppu | |||
0000 | 007F | Peruskomennot C0 ja Latin | U0000 | katso ISO / IEC 646 , ASCII , latinalaiset aakkoset , Unicode-ohjausmerkit |
0080 | 00FF | C1-komennot ja Latin-1-lisäosa | U0080 | katso ISO / IEC 8859 , ISO / IEC 8859-1 , latinalaiset aakkoset , Unicode-tarkistusmerkit |
0100 | 017F | Latinalainen laajennettu A | U0100 | katso latinalaiset aakkoset |
0180 | 024F | Latinalainen laajennettu B | U0180 | katso latinalaiset aakkoset |
0250 | 02AF | Kansainvälinen foneettinen aakkoset (API) | U0250 | katso kansainvälinen foneettinen aakkoset |
02B0 | 02FF | Korjauskirjeet leveydellä | U02B0 | ks. diakritikot , latinalaiset aakkoset , latinalaiset aakkoset , kansainväliset foneettiset aakkoset |
0300 | 036F | Diakriitikot | U0300 | katso tarkkeiden , tarkkeiden latinalaisten aakkosten , tarkkeiden kreikkalaisten aakkosten , koptin aakkoset , tarkkeiden kyrilliset aakkoset |
0370 | 03FF | Kreikka ja kopti | U0370 | katso kreikan aakkoset ja koptiset aakkoset |
0400 | 04FF | Kyrillinen | U0400 | katso kyrilliset aakkoset |
0500 | 052F | Kyrillinen lisäosa | U0500 | katso kyrilliset aakkoset |
0530 | 058F | Armenialainen | U0530 | katso Armenian aakkoset |
0590 | 05FF | heprealainen | U0590 | ks. heprealainen aakkoset , diakritikot , heprealaisten aakkosien diakritikot |
0600 | 06FF | arabi | U0600 | katso arabian aakkoset |
0700 | 074F | Syyrialainen | U0700 | katso Syyrialainen |
0750 | 077F | Arabialainen lisäosa | U0750 | katso arabian aakkoset |
0780 | 07BF | Thâna | U0780 | katso Malediivien aakkoset |
07C0 | 07FF | Ei | U07C0 | katso N'ko |
0800 | 083F | samarialainen | U0800 | katso samarialainen aakkoset |
0840 | 085F | Mandealainen | U0840 | katso mandean aakkoset |
0860 | 086F | Syyrialainen lisäosa | U0860 | katso Syyrialainen |
0870 | 089F | Varata | - | - |
08A0 | 08FF | Laajennettu arabia A. | U08A0 | katso arabian aakkoset , diakritikot , arabialaisten aakkosien diakritikot |
0900 | 097F | Devanagari | U0900 | katso Devanâgarî |
0980 | 09FF | Bengali | U0980 | katso Bengali |
0A00 | 0A7F | Gurmoukhi | U0A00 | katso Gurmukhī |
0A80 | 0AFF | Gujarat | U0A80 | katso gudžaratin aakkoset |
0B00 | 0B7F | Oriya | U0B00 | katso Oriya |
0B80 | 0BFF | Tamili | U0B80 | katso tamili |
0C00 | 0C7F | Telougou | U0C00 | katso Telougou |
0C80 | 0CFF | Kannara | U0C80 | katso Kannara |
0D00 | 0D7F | Malajalam | U0D00 | katso Malajalam |
0D80 | 0DFF | Singhalese | U0D80 | katso Singhalese |
0E00 | 0E7F | Thai | U0E00 | katso thaimaalainen |
0E80 | 0EFF | Lao | U0E80 | katso Lao |
0F00 | 0FFF | Tiibetiläinen | U0F00 | katso tiibetiläistä |
1000 | 109F | Burmalainen | U1000 | katso Burman |
10A0 | 10FF | Georgialainen | U10A0 | katso georgialainen , georgialainen aakkoset |
1100 | 11FF | Jamos hangul | U1100 | katso Hangûl |
1200 | 137F | Etiopialainen | U1200 | katso Alphasyllabaire geez |
1380 | 139F | Etiopian lisäosa | U1380 | katso Alphasyllabaire geez |
13A0 | 13FF | Cherokee | U13B0 | katso Cherokee Syllabary |
1400 | 167F | Kanadan yhtenäiset alkuperäiskansat | U1400 | Katso intiaani kielet |
1680 | 169F | Ogam | U1680 | katso Oghamic aakkoset |
16A0 | 16FF | Runes | U16A0 | katso runon aakkoset |
1700 | 171F | Tagalog | U1700 | katso Tagalog |
1720 | 173F | Hanounóo | U1720 | katso Hanunóon aakkoset (en) |
1740 | 175F | Bouhide | U1740 | katso Buhid (en) |
1760 | 177F | Tagbanoua | U1760 | katso aakkoset Tagbanoua (en) |
1780 | 17FF | Khmer | U1780 | katso Khmer |
1800 | 18AF | Mongolialainen | U1800 | katso mongolia |
18B0 | 18FF | Laajennetut Kanadan alkuperäiskansat | U18B0 | Katso intiaani kielet |
1900 | 194F | Limbou | U1900 | katso Limbou |
1950 | 197F | Tai se | U1950 | katso Taï-le |
1980 | 19DF | Uusi Taï lü | U1980 | katso Tai lü |
19E0 | 19FF | Khmerien symbolit | U19E0 | katso Khmer |
1A00 | 1A1F | Bougui | U1A00 | katso Bugisin kieli , Lontaran kirjoittaminen |
1A20 | 1AAF | Tai tham | U1A20 | katso aakkoset Taï Tham ( fr ) |
1AB0 | 1AFF | Laajennetut diakriitikot | U1AB0 | katso diakritinen |
1B00 | 1B7F | Balilainen | U1B00 | katso balilaista kirjoitusta |
1B80 | 1BBF | Soundanese | U1B80 | katso Soundanese , Sudanin aakkoset (en) |
1BC0 | 1BFF | Batak | U1BC0 | katso Batakin käsikirjoitus |
1C00 | 1C4F | Lepcha | U1C00 | katso aakkoset lepch (en) |
1C50 | 1C7F | Ol chiki | U1C50 | katso aakkoset santâlî |
1C80 | 1C8F | Laajennettu kyrillinen C | U1C80 | ks. kyrilliset aakkoset , kirkkoslaavi |
1C90 | 1CBF | Laajennettu georgialainen | U1C90 | katso georgialainen , georgialainen aakkoset |
1CC0 | 1CCF | Sundanese-lisäosa | U1CC0 | katso Soundanese , Sudanin aakkoset (en) |
1CD0 | 1CFF | Vediset laajennukset | U1CD0 | katso sanskritia |
1D00 | 1D7F | Foneettinen lisäosa | U1D00 | katso kansainvälinen foneettinen aakkoset |
1D80 | 1DBF | Laajennettu foneettinen lisäosa | U1D80 | katso kansainvälinen foneettinen aakkoset |
1DC0 | 1DFF | Diakriitikot täydentävät | U1DC0 | katso diakritinen |
1E00 | 1EFF | Latinaksi laajennettu lisää | U1E00 | katso latinalaiset aakkoset |
1F00 | 1FFF | Laajennettu kreikka | U1F00 | katso kreikan aakkoset , polytoninen kreikka |
2000 | 206F | Yleiset välimerkit | U2000 | katso välimerkit , välilyönti |
2070 | 209F | Eksponentit ja indeksit | U2070 | katso Eksponentti ja alaindeksi |
20A0 | 20CF | Valuuttamerkit | U20A0 | katso Valuuttamerkki |
20D0 | 20FF | Yhdistelmämerkit symboleille | U20D0 | katso nuoli , kierto |
2100 | 214F | Kirjaintyyppiset symbolit | U2100 | katso Lämpötila , Matemaattinen symboli , Tavaramerkkilakit |
2150 | 218F | Numeromuodot | U2150 | katso roomalainen numero , murtoluku |
2190 | 21FF | Nuolet | U2190 | katso nuoli |
2200 | 22FF | Matematiikkaoperaattorit | U2200 | katso matemaattiset operaattorit |
2300 | 23FF | Erilaisia teknisiä merkkejä | U2300 | katso kreikan aakkoset , välimerkit , nuoli , matemaattiset symbolit , emoji |
2400 | 243F | Komennon kuvakkeet | U2400 | katso ISO / IEC 8859 , ISO / IEC 646 , Control C0 (en) |
2440 | 245F | Optinen hahmon tunnistus | U2430 | katso Optinen merkintunnistus |
2460 | 24FF | Aakkosnumeerinen ympyrä | U2460 | katso latinalaiset aakkoset , arabialaiset numerot |
2500 | 257F | Verkot | U2500 | katso muodon piirustusmerkki (en) |
2580 | 259F | Päällystekivet | U2580 | katso Muotokuvan merkki (sisään) , Suorakulmio |
25A0 | 25FF | Geometriset kuviot | U25A0 | katso geometrinen muoto |
2600 | 26FF | Erilaiset symbolit | U2600 | katso symboli , emoji , ranskalainen korttipeli , shakki , sukupuolisymboli |
2700 | 27BF | Casseau | U2700 | katso symboli , arabialaiset numerot , välimerkit , emoji , matemaattiset operaattorit , nuoli |
27C0 | 27EF | Erilaiset matemaattiset symbolit A | U27C0 | katso matemaattinen symboli |
27F0 | 27FF | Nuolien lisäys A | U27F0 | katso nuoli |
2800 | 28FF | Pistekirjoitusyhdistelmät | U2800 | katso pistekirjoitus |
2900 | 297F | Nuolien lisäys B | U2900 | katso nuoli |
2980 | 29FF | Erilaiset matemaattiset symbolit B | U2980 | katso matemaattinen symboli |
2A00 | 2AFF | Muita matemaattisia operaattoreita | U2A00 | katso matemaattiset operaattorit |
2B00 | 2BFF | Erilaisia symboleja ja nuolia | U2B00 | katso nuoli , Emoji |
2C00 | 2C5F | Glagootti | U2C00 | ks. glagoliittinen aakkoset |
2C60 | 2C7F | Latinalainen laajennettu C | U2C00 | katso latinalaiset aakkoset , uiguurit |
2C80 | 2CFF | Kopti | U2C80 | katso koptilainen aakkoset |
2D00 | 2D2F | Georgialainen lisäosa | U2D00 | katso georgialainen , georgialainen aakkoset |
2D30 | 2D7F | Tifinagh | U2D30 | katso Tifinaghin ja berberin kielet |
2D80 | 2DDF | Etiopian pidennetty | U2D80 | katso Alphasyllabaire geez |
2DE0 | 2DFF | Laajennettu kyrillinen A | U2DE0 | ks. kyrilliset aakkoset , diakritikot , kyrillisten aakkosien diakritikot |
2E00 | 2E7F | Välimerkkien lisäys | U2E00 | katso välimerkit |
2E80 | 2EFF | CJC-avainten muut muodot | U2E80 | katso kiina, japani ja korea , sinogrammi , kiinalainen kirjoitus , kiinan kielet , pyhät kirjoitukset japani , japani , Hanja , korea |
2F00 | 2FDF | Kiinalaiset Kangxi-avaimet | U2F00 | katso Kangxi Character Dictionary |
2FE0 | 2FEF | Varata | - | - |
2FF0 | 2FFF | Ideografinen kuvaus | U2FF0 | katso Ideografinen kuvaus |
3000 | 303F | CJC-symbolit ja välimerkit | U3000 | katso välimerkit , kiina, japani ja korea , sinogrammi , kiinalainen kirjoitus , kiinan kielet , pyhät kirjoitukset japani , japani , Hanja , korea |
3040 | 309F | Hiragana | U3040 | katso Hiragana , Japanin kirjoitukset , Japani |
30A0 | 30FF | Katakana | U30A0 | katso Katakana , Japanin kirjoitukset , Japani |
3100 | 312F | Bopomofo | U3100 | katso Bopomofo , kiina, japani ja korea , Sinogramme |
3130 | 318F | Hangul-yhteensopivuusjamos | U3130 | katso Hangûl , Sinogramme , korea |
3190 | 319F | Kanbun | U3190 | katso Kanbun , Sinogramme |
31A0 | 31BF | Bopomofo laajennettu | U31A0 | katso Bopomofo , Sinogramme |
31C0 | 31EF | CJC-piirteet | U31C0 | katso kiina, japani ja korea , sinogrammi , kiinalainen kirjoitus , kiinan kielet , pyhät kirjoitukset japani , japani , Hanja , korea |
31F0 | 31FF | Katakana foneettinen laajennus | U31F0 | katso Katakana , Japanin kirjoitukset , Japani |
3200 | 32FF | Piirretty CJC: n kirjeet ja kuukaudet | U3200 | katso luvut arabia , kiina, japani ja korea , sinogrammi , kiinalainen kirjoitus , kiinan kielet , pyhät kirjoitukset japani , japani , hanja , korea |
3300 | 33FF | CJC-yhteensopivuus | U3000 | ks . mittayksikkö , kiina, japani ja korea , sinogrammi , kiinalainen kirjoitus , kiinan kielet , pyhät kirjoitukset japani , japani , hanja , korea |
3400 | 4DBF | CJC: n yhtenäisten ideogrammien lisäys A ( osa 1 ) ( osa 2 ) |
U3400 | katso kiina, japani ja korea , sinogrammi , kiinalainen kirjoitus , kiinan kielet , pyhät kirjoitukset japani , japani , Hanja , korea |
4DC0 | 4DFF | Hexagrammit klassisesta mutaatioista tai Yi Jing | U4DC0 | katso Yi Jing , heksagrammi , kiina, japani ja korea , Sinogram |
4E00 | 9FFF | CJC: n yhtenäiset ideogrammit ( osa 1 ) ( osa 2 ) ( osa 3 ) ( osa 4 ) ( osa 5 ) ( osa 6 ) |
U4E00 | katso kiina, japani ja korea , sinogrammi , kiinalainen kirjoitus , kiinan kielet , pyhät kirjoitukset japani , japani , Hanja , korea , vietnam |
A000 | A48F | Tavoitteena on Fresh Mountains | UA000 | ks. sanakirja yi |
A490 | A4CF | Yi-avaimet | UA490 | ks. sanakirja yi |
A4D0 | A4FF | Lisu | UA4D0 | katso Lisu , aakkoset Fraser (en) |
A500 | A63F | Vai | UA500 | katso tavukirja vaï |
A640 | A69F | Laajennettu kyrillinen B | UA640 | katso kyrilliset aakkoset |
A6A0 | A6FF | Bamoun | UA6A0 | katso Bamoun-kirjoitus |
A700 | A71F | Äänimerkkien vaihtaminen | UA700 | katso Kieli sävyinä , Kiinan kielet |
A720 | A7FF | Latinalainen laajennettu D | UA720 | katso latinalaiset aakkoset |
A800 | A82F | Sylotî nâgrî | UA800 | katso Sylotî nâgrî (en) |
A830 | A83F | Intian yleiset digitaaliset muodot | UA830 | katso Intia |
A840 | A87F | Phags-pa | UA840 | katso phagpa-komentosarja |
A880 | A8DF | Saurachtra | UA880 | katso aakkoset Saurashtra (en) |
A8E0 | A8FF | Laajennettu devanāgarī | UA8E0 | katso Devanâgarî |
A900 | A92F | Kayah li | UA900 | katso aakkoset Kayah Li |
A930 | A95F | Rejang | UA930 | katso Rejangin kirjoittaminen |
A960 | A97F | Jamos Hangul Laajennettu A | UA960 | katso Hangûl , Sinogramme , korea |
A980 | A9DF | Jaava | UA980 | katso jaavan kirja |
A9E0 | A9FF | Burmalainen jatkoi B: tä | UA9E0 | katso burmalainen , burmalainen kirjoitus |
AA00 | AA5F | Cham | UAA00 | katso Cham |
AA60 | AA7F | Burmalainen jatkoi A | UAA60 | katso burmalainen , burmalainen kirjoitus |
AA80 | AADF | Tai viet | UAA80 | katso aakkoset taï viêt , Tay-pato , Tay don , Tay Song ( fr ) |
AAE0 | AAFF | Meitei mayek pidennetty | UAAE0 | katso Meitei , Meitei- käsikirjoitus |
AB00 | AB2F | Etiopian laajennettu A | UAB00 | katso Alphasyllabaire geez |
AB30 | AB6F | Latinalainen laajennettu E | UAB30 | katso latinalaiset aakkoset , Teuthonista , Alphabet d'Ascoli , aakkoset Rousselot-Gilliéron |
AB70 | ABBF | Cherokee-lisäosa | UAB70 | katso Cherokee Syllabary |
ABC0 | ABFF | Meitei mayek | UABC0 | katso Meitei , Meitei- käsikirjoitus |
AC00 | D7AF | Hangul-tavut ( osa 1 ) ( osa 2 ) ( osa 3 ) ( osa 4 ) |
UAC00 | katso Hangûl , Sinogramme , korea |
D7B0 | D7FF | Jamos Hangul Laajennettu B | U27B0 | katso Hangûl , Sinogramme , korea |
D800 | DBFF | Suuri suuntaamaton puolivyöhyke | UD800 | katso suuntaamaton ylempi puolivyöhyke |
DC00 | DFFF | Matala suuntaamaton puolivyöhyke | UDC00 | katso matalan suuntaussuunnan puolivyöhyke |
E000 | F8FF | Yksityisen käytön alue ( osa 1 ) ( osa 2 ) |
UE000 | Ei virallisesti määriteltyä ominaisuutta |
F900 | FAFF | CJC-yhteensopivuusideogrammit | UF900 | katso kiina, japani ja korea , sinogrammi , kiinalainen kirjoitus , kiinan kielet , pyhät kirjoitukset japani , japani , Hanja , korea |
FB00 | FB4F | Aakkoselliset esityslomakkeet | UFB00 | katso latinalaiset aakkoset , heprean aakkoset , armenialaiset aakkoset |
FB50 | FDFF | Arabiankieliset esityslomakkeet A ( osa 1 ) ( osa 2 ) ( osa 3 ) |
UFB50 | katso arabian aakkoset |
FE00 | FE0F | Vaihtoehtovalitsimet | UFE00 | katso valitsimien muunnos (sisään) |
FE10 | FE1F | Pystysuorat muodot | UFE10 | katso välimerkit , GB 18030 |
FE20 | FE2F | Kombinatoriset puolimerkit | UFE20 | katso diakritinen |
FE30 | FE4F | CJC-yhteensopivuuslomakkeet | UFE30 | katso kiina, japani ja korea , sinogrammi , kiinalainen kirjoitus , kiinan kielet , pyhät kirjoitukset japani , japani , Hanja , korea |
FE50 | FE6F | Pienet muodon vaihtelut | UFE50 | katso välimerkit , GBK , GB 2312 , CNS 11643 (en) |
FE70 | FEFF | Arabiankieliset esityslomakkeet B | UFE70 | katso arabian aakkoset |
FF00 | FFEF | Puoli- ja täysleveät muodot | UFF00 | nähdä muodot puoliksi ja täysleveinä , kiina, japani ja korea , sinogrammi , kiinalainen kirjoitus , kiinan kielet , pyhät kirjoitukset japani , japani , Hanja , korea , ASCII , latina aakkoset |
FFF0 | FFFF | Erikoismerkit | UFFF0 | katso Erikoismerkit |
Koodipisteet | Virallinen estonimi | Virallinen PDF | Lue lisää | |
---|---|---|---|---|
alkaa | Loppu | |||
10000 | 1007F | Lineaarinen sanakirja B | U10000 | katso lineaarinen B |
10080 | 100FF | Lineaariset B-ideogrammit | U10080 | katso lineaarinen B |
10100 | 1013F | Egeanmeren numerot | U10100 | katso Numerot iEgean (en) |
10140 | 1018F | Muinaiset kreikkalaiset numerot | U10140 | katso muinaiset kreikkalaiset numerot |
10190 | 101CF | Muinaiset symbolit | U10190 | katso Rooman yksiköt , Rooman valuutta |
101D0 | 101FF | Phaistos-levy | U101D0 | katso Phaistos Disc |
10200 | 1027F | Varata | - | - |
10280 | 1029F | Lycian | U10280 | katso Lycien |
102A0 | 102DF | Carien | U102A0 | katso Carian-aakkoset |
102E0 | 102FF | Koptien epact-numerot | U102E0 | katso kopti |
10300 | 1032F | Kursiivi aakkoset | U10300 | katso vanha kursivoitu aakkoset |
10330 | 1034F | gotiikka | U10330 | katso goottilainen |
10350 | 1037F | Vanha permian | U10350 | katso vanha Permin aakkoset |
10380 | 1039F | Ugaritic | U10380 | katso Ugaritin aakkoset |
103A0 | 103FF | Vanha persialainen | U103A0 | katso vanha persia |
10400 | 1044F | Deseret | U10400 | katso aakkoset |
10450 | 1047F | Shavien | U10450 | katso shavian aakkoset |
10480 | 104AF | Osmanya | U10480 | katso Osmanyan aakkoset |
104B0 | 104FF | Osage | U104B0 | katso Osage |
10500 | 1052F | Elbasan | U10500 | katso Elbasanin käsikirjoitus |
10530 | 1056F | Agganialainen | U10530 | katso Aghbanian aakkoset |
10570 | 105FF | Varata | - | - |
10600 | 1077F | Lineaarinen A | U10600 | katso lineaarinen A |
10780 | 107FF | Varata | - | - |
10800 | 1083F | Kyproksen sanakirja | U10800 | ks. Kyproksen sanakirja |
10840 | 1085F | Keisarillinen aramea | U10840 | katso aramean aakkoset |
10860 | 1087F | Palmyrenian aakkoset | U10860 | katso Palmyrenian aakkoset |
10880 | 108AF | Nabataean | U10880 | katso Nabatean aakkoset |
108B0 | 108DF | Varata | - | - |
108E0 | 108FF | Hatrenian | U108E0 | katso Hatrénien-aakkoset ( fr ) |
10900 | 1091F | Foinikialainen | U10900 | katso foinikialaiset aakkoset |
10920 | 1093F | Lydian | U10920 | katso Lydian aakkoset |
10940 | 1097F | Varata | - | - |
10980 | 1099F | Meroitic hieroglyfit | U10980 | katso Meroitic-kirjoitus |
109A0 | 109FF | Meroitic Cursive | U109A0 | katso Meroitic-kirjoitus |
10A00 | 10A5F | Kharochthî | U10A00 | katso aakkoset kharoshthi |
10A60 | 10A7F | Etelä-arabia | U10A60 | katso Etelä-Arabian aakkoset |
10A80 | 10A9F | Pohjois-arabia | U10A80 | katso vanha arabiarkisto (en) |
10AA0 | 10ABF | Varata | - | - |
10AC0 | 10AFF | Manichean | U10AC0 | katso Manichean aakkoset (en) |
10B00 | 10B3F | Avestic | U10B00 | katso Avestin aakkoset (en) |
10B40 | 10B5F | Partialaiset kirjoitukset | U10B40 | katso partialaiset kirjoitukset (en) |
10B60 | 10B7F | Pehlevi kirjoituksista | U10B60 | katso pehlevi-käsikirjoitus |
10B80 | 10BAF | Pehlevi psaltereista | U10B80 | katso pehlevi-pyhien kirjoitusten kohta , Psalter |
10BB0 | 10BFF | Varata | - | - |
10C00 | 10C4F | Orkhon | U10C00 | katso Orkhonin aakkoset |
10C50 | 10C7F | Varata | - | - |
10C80 | 10CFF | Vanha unkari | U10C80 | katso Unkarin runot |
10D00 | 10E5F | Varata | - | - |
10E60 | 10E7F | Rumin digitaaliset symbolit | U10E60 | katso Fezin , Fezin kuvat |
10E80 | 10FDF | Varata | - | - |
10FE0 | 10FFF | Elymaic | U10FE0 | katso Élymaïque (en) |
11000 | 1107F | Brahmin | U11000 | katso Brahmi |
11080 | 110CF | Khaithi | U11080 | katso Khaithi |
110D0 | 110FF | Sora sompeng | U110D0 | katso aakkoset sora sompeng (en) |
11100 | 1114F | Chakma | U11100 | katso Ojhapath |
11150 | 1117F | Mahajanî | U11150 | katso Mahâjanî (in) |
11180 | 111DF | Charada | U11180 | katso Alabyllabary sharda |
111E0 | 111FF | Singhalilaiset arkaaiset numerot | U111E0 | katso Singhalese |
11200 | 1124F | Khojki | U11200 | katso Khojki (en) |
11250 | 1127F | Varata | - | - |
11280 | 112AF | Multani | U11280 | katso Multanin aakkoset (en) |
112B0 | 112FF | Khudabadi | U112B0 | katso Kirjoittaminen Khudabadi (en) |
11300 | 1137F | Grantha | U11300 | katso Grantha |
11380 | 113FF | Varata | - | - |
11400 | 1147F | Newa | U11400 | katso aakkoset Newa (en) |
11480 | 114DF | Tirhuta | U11480 | katso Tirhuta |
114E0 | 1157F | Varata | - | - |
11580 | 115FF | Siddham | U11580 | katso alabylabary siddham |
11600 | 1165F | Modi | U11600 | katso Modi Alphasyllabary |
11660 | 1167F | Mongolilainen täydennysosa | U11660 | katso mongolia |
11680 | 116CF | Takri | U11680 | katso aakkoset Takri (en) |
116D0 | 116FF | Varata | - | - |
11700 | 1173F | Ahom | U11700 | katso Alphasyllabaire âhom |
11740 | 1189F | Varata | - | - |
118A0 | 118FF | Warang citi | U118A0 | katso Warang Citi (en) |
11900 | 11999 | Varata | - | - |
119A0 | 119FF | nandinâgarî | U119A0 | katso Nandinagari (en) |
11A00 | 11A4F | Toissijainen Zanabazar | U11A00 | katso Zanabazar , mongolialainen |
11A50 | 11AAF | Soyombo | U11A50 | katso soyombo-komentosarja |
11AB0 | 11ABF | Varata | - | - |
11AC0 | 11AFF | Paou leuka haou | U11AC0 | katso Paou chin haou (en) kirjoittaminen |
11B00 | 11BFF | Varata | - | - |
11C00 | 11C6F | Bhaiksuki | U11C00 | katso aakkoset Bhaiksuki (en) |
11C70 | 11CBF | Marchen | U11C70 | katso Zhang-zhung |
11CC0 | 11CFF | Varata | - | - |
11D00 | 11D5F | Masaram gondi | U11D00 | katso Masaram Gondi (en) , Gondi |
11D60 | 11FBF | Varata | - | - |
11FC0 | 11FFF | Tamil-lisäosa | U11FC0 | katso tamili |
12000 | 123FF | Nuolenpääkirjoitus | U12000 | katso kiintolevy |
12400 | 1247F | Välimerkit ja kiintolevyt | U12400 | katso kiintolevy |
12480 | 1254F | Arkaaisten dynastioiden kiilamuoto | U12480 | katso kiintolevy |
12550 | 12FFF | Varata | - | - |
13000 | 1342F | Egyptiläiset hieroglyfit | U13000 | katso egyptiläiset hieroglyfit |
13430 | 1343F | Egyptiläiset hieroglyfiset muotoilun ohjaimet | U13430 | katso egyptiläiset hieroglyfit |
13440 | 143FF |
Varattu (osa 1) (osa 2) |
- | - |
14400 | 1467F | Anatolian hieroglyfit | U14400 | katso Anatolian hieroglyfit |
14680 | 167FF |
Varattu (osa 1) (osa 2) (osa 3) |
- | - |
16800 | 16A3F | Bamoun-lisäosa | U16800 | katso Bamoun-kirjoitus |
16A40 | 16A6F | Mro | U16A40 | katso kieli-esittely (en) |
16A70 | 16ACF | Varata | - | - |
16AD0 | 16AFF | Bassa | U16AD0 | katso aakkoset bassa |
16B00 | 16B8F | Pahawh hmong | U16B00 | katso Pahawh hmong |
16B90 | 16EFF | Varata | - | - |
16F00 | 16F9F | Miao | U16F00 | katso Miaon kirjoittaminen (en) |
16FA0 | 16FDF | Varata | - | - |
16FE0 | 16FFF | Ideografiset symbolit ja välimerkit | U16FE0 | katso Ideogrammi , Tangut- kirjoitus , Nüshu |
17000 | 187FF | Tangoute (osa 1) (osa 2) |
U17000 | katso Tangouten kirjoittaminen |
18800 | 18AFF | Tangut-komponentit | U18800 | katso Tangouten kirjoittaminen |
18B00 | 1AFFF |
Varattu (osa 1) (osa 2) (osa 3) |
- | - |
1B000 | 1B0FF | Kana-lisäosa | U1B00 | katso japani , japanilaiset kirjoitukset , Kana |
1B100 | 1B12F | Laajennettu Kana A | U1B100 | katso japani , japanilaiset kirjoitukset , Kana , Hentaigana |
1B130 | 1B16F | Pidennys pieni kana | U1B130 | katso japani , japanilaiset kirjoitukset , Kana , Hentaigana |
1B170 | 1B2FF | Nüshu | U1B170 | katso Nüshu |
1B300 | 1BBFF | Varata | - | - |
1BC00 | 1BC9F | Monistettu lyhytkirja | U1BC00 | katso Stenography , Émile Duployé |
1BCA0 | 1CFFF |
Varattu (osa 1) (osa 2) |
- | - |
1D000 | 1D0FF | Bysantin musiikkisymbolit | U1D000 | katso bysanttilainen musiikki |
1D100 | 1D1FF | Länsimaiset musiikkisymbolit | U1D100 | nähdä länsimaista musiikkia |
1D200 | 1D24F | Muinaisen Kreikan nuotinnus | U1D200 | katso antiikin Kreikan musiikki |
1D250 | 1D2FF | Varata | - | - |
1D300 | 1D35F | Korkeimman mysteerin klassiset symbolit | U1D300 | katso Tai Xuan Jing (en) |
1D360 | 1D37F | Kiinalaiset kepit | U1D360 | katso Baarilaskenta |
1D380 | 1D3FF | Varata | - | - |
1D400 | 1D7FF | Aakkosnumeeriset matemaattiset symbolit | U1D400 | katso matemaattinen symboli , latinalaiset aakkoset , arabialaiset numerot |
1D800 | 1DAAF | Suttonin merkkien kirjoittaminen | U1D800 | katso Kirjoitusmerkit |
1DAB0 | 1DFFF | Varata | - | - |
1E000 | 1E02F | Glagoliittilisäaine | U1E000 | ks. glagoliittinen aakkoset |
1E030 | 1E0FF | Varata | - | - |
1E100 | 1E14F | Nyiakeng puachue hmong | U1E800 | katso Nyiakeng puachue hmong (en) |
1E150 | 1E2DF | Varata | - | - |
1E2C0 | 1E2FF | Wancho | U1E2C0 | katso Wancho |
1E300 | 1E7FF | Varata | - | - |
1E800 | 1E8DF | Kerjääminen kikakui | U1E800 | katso Kikakui |
1E8E0 | 1E8FF | Varata | - | - |
1E900 | 1E95F | Adlam | U1E900 | katso aakkoset adlam |
1E960 | 1ECFF | Varata | - | - |
1ED00 | 1ED4F | Syaq-luvut | U1ED00 | |
1ED50 | 1ECFF | Varata | - | - |
1EE00 | 1EEFF | Arabialaiset matemaattiset aakkoset | U1EE00 | katso arabialainen matematiikka |
1EF00 | 1EFFF | Varata | - | - |
1F000 | 1F02F | Mahjong-palat | U1F000 | katso Mah-jong |
1F030 | 1F09F | Domino | U1F030 | katso Dominos |
1F0A0 | 1F0FF | Pelikortit | U1F0A0 | katso Pelikortit |
1F100 | 1F1FF | Ympyröity aakkosnumeerinen lisäys | U1F100 | katso PRIA STD-B24 (en) |
1F200 | 1F2FF | Piirretty ideografinen lisäys | U1F200 | katso PRIA STD-B24 (en) |
1F300 | 1F5FF | Erilaiset symbolit ja kuvakkeet | U1F300 | katso Piktogrammi , Emoji |
1F600 | 1F64F | Hymiöt | U1F600 | katso hymiö , hymiö |
1F650 | 1F67F | Koristeellinen kasetti | U1F650 | katso Wingdings |
1F680 | 1F6FF | Kuljetus- ja kartografiset symbolit | U1F680 | katso liikenne , kartografia , emoji |
1F700 | 1F77F | Alkeemiset symbolit | U1F700 | katso Alkemia |
1F780 | 1F7FF | Laajennetut geometriset muodot | U1F780 | katso geometrinen muoto |
1F800 | 1F8FF | Nuolien lisäys C | U1F800 | katso nuoli |
1F900 | 1F9FF | Lisäsymbolit ja kuvakkeet | U1F900 | katso Piktogrammi , Hymiö , Emoji |
1FA00 | 1FA6F | Varata | - | - |
1FA70 | 1FAFF | Symbolit ja kuvakkeet laajennettu-A | U1FA70 | katso Piktogrammi , Emoji |
1FB00 | 1FFFF | Varata | - | - |
Koodipisteet | Virallinen estonimi | Lue lisää | |
---|---|---|---|
alkaa | Loppu | ||
20000 | 2A6DF | CJC: n yhtenäisten ideogrammien täydennysosa B ( osa 1 ) ( osa 2 ) ( osa 3 ) ( osa 4 ) ( osa 5 ) ( osa 6 ) ( osa 7 ) ( osa 8 ) ( osa 9 ) ( osa 10 ) ( osa 11 ) |
katso kiina, japani ja korea |
2A6E0 | 2A6FF | Varata | - |
2A700 | 2B73F | CJC: n yhtenäisten ideogrammien täydennysosa C ( osa 1 ) ( osa 2 ) |
katso kiina, japani ja korea |
2B740 | 2B81F | Täydennysosa D yhtenäisiin CJC-ideogrammeihin | katso kiina, japani ja korea |
2B820 | 2CEAF | Täydennä E yhtenäisiin CJC-ideogrammeihin | katso kiina, japani ja korea |
2CEB0 | 2EBEF | Täydennysosa F yhtenäisiin CJC-ideogrammeihin | katso kiina, japani ja korea |
2EBF0 | 2F7FF | Varata | - |
2F800 | 2FA1F | CJC-yhteensopivuusideogrammien täydennysosa | katso kiina, japani ja korea |
2FA20 | 2FFFF | Varata | - |
Koodipisteet | Virallinen estonimi | Lue lisää | |
---|---|---|---|
alkaa | Loppu | ||
30000 | 3FFFF |
Varattu ( osa 1 ) ( osa 2 ) ( osa 3 ) ( osa 4 ) ( osa 5 ) ( osa 6 ) ( osa 7 ) ( osa 8 ) ( osa 9 ) ( osa 10 ) ( osa 11 ) ( osa 12 ) ( Osa 13 ) ( Osa 14 ) ( Osa 15 ) ( Osa 16 ) ( Osa 17 ) |
Suunnitelma 3 |
40 000 | 4FFFF |
Varattu ( osa 1 ) ( osa 2 ) ( osa 3 ) ( osa 4 ) ( osa 5 ) ( osa 6 ) ( osa 7 ) ( osa 8 ) ( osa 9 ) ( osa 10 ) ( osa 11 ) ( osa 12 ) ( Osa 13 ) ( Osa 14 ) ( Osa 15 ) ( Osa 16 ) ( Osa 17 ) |
Suunnitelma 4 |
50000 | 5FFFF |
Varattu ( osa 1 ) ( osa 2 ) ( osa 3 ) ( osa 4 ) ( osa 5 ) ( osa 6 ) ( osa 7 ) ( osa 8 ) ( osa 9 ) ( osa 10 ) ( osa 11 ) ( osa 12 ) ( Osa 13 ) ( Osa 14 ) ( Osa 15 ) ( Osa 16 ) ( Osa 17 ) |
Suunnitelma 5 |
60 000 | 6FFFF |
Varattu ( osa 1 ) ( osa 2 ) ( osa 3 ) ( osa 4 ) ( osa 5 ) ( osa 6 ) ( osa 7 ) ( osa 8 ) ( osa 9 ) ( osa 10 ) ( osa 11 ) ( osa 12 ) ( Osa 13 ) ( Osa 14 ) ( Osa 15 ) ( Osa 16 ) ( Osa 17 ) |
Suunnitelma 6 |
70 000 | 7FFFF |
Varattu ( osa 1 ) ( osa 2 ) ( osa 3 ) ( osa 4 ) ( osa 5 ) ( osa 6 ) ( osa 7 ) ( osa 8 ) ( osa 9 ) ( osa 10 ) ( osa 11 ) ( osa 12 ) ( Osa 13 ) ( Osa 14 ) ( Osa 15 ) ( Osa 16 ) ( Osa 17 ) |
Suunnitelma 7 |
80 000 | 8FFFF |
Varattu ( osa 1 ) ( osa 2 ) ( osa 3 ) ( osa 4 ) ( osa 5 ) ( osa 6 ) ( osa 7 ) ( osa 8 ) ( osa 9 ) ( osa 10 ) ( osa 11 ) ( osa 12 ) ( Osa 13 ) ( Osa 14 ) ( Osa 15 ) ( Osa 16 ) ( Osa 17 ) |
Suunnitelma 8 |
90 000 | 9FFFF |
Varattu ( osa 1 ) ( osa 2 ) ( osa 3 ) ( osa 4 ) ( osa 5 ) ( osa 6 ) ( osa 7 ) ( osa 8 ) ( osa 9 ) ( osa 10 ) ( osa 11 ) ( osa 12 ) ( Osa 13 ) ( Osa 14 ) ( Osa 15 ) ( Osa 16 ) ( Osa 17 ) |
Suunnitelma 9 |
A0000 | AFFFF |
Varattu ( osa 1 ) ( osa 2 ) ( osa 3 ) ( osa 4 ) ( osa 5 ) ( osa 6 ) ( osa 7 ) ( osa 8 ) ( osa 9 ) ( osa 10 ) ( osa 11 ) ( osa 12 ) ( Osa 13 ) ( Osa 14 ) ( Osa 15 ) ( Osa 16 ) ( Osa 17 ) |
Suunnitelma 10 |
B0000 | BFFFF |
Varattu ( osa 1 ) ( osa 2 ) ( osa 3 ) ( osa 4 ) ( osa 5 ) ( osa 6 ) ( osa 7 ) ( osa 8 ) ( osa 9 ) ( osa 10 ) ( osa 11 ) ( osa 12 ) ( Osa 13 ) ( Osa 14 ) ( Osa 15 ) ( Osa 16 ) ( Osa 17 ) |
Suunnitelma 11 |
C0000 | CFFFF |
Varattu ( osa 1 ) ( osa 2 ) ( osa 3 ) ( osa 4 ) ( osa 5 ) ( osa 6 ) ( osa 7 ) ( osa 8 ) ( osa 9 ) ( osa 10 ) ( osa 11 ) ( osa 12 ) ( Osa 13 ) ( Osa 14 ) ( Osa 15 ) ( Osa 16 ) ( Osa 17 ) |
Suunnitelma 12 |
D0000 | DFFFF |
Varattu ( osa 1 ) ( osa 2 ) ( osa 3 ) ( osa 4 ) ( osa 5 ) ( osa 6 ) ( osa 7 ) ( osa 8 ) ( osa 9 ) ( osa 10 ) ( osa 11 ) ( osa 12 ) ( Osa 13 ) ( Osa 14 ) ( Osa 15 ) ( Osa 16 ) ( Osa 17 ) |
Suunnitelma 13 |
Koodipisteet | Virallinen estonimi | Kommentit | |
---|---|---|---|
alkaa | Loppu | ||
E0000 | E007F | Tarrat | |
E0080 | E00FF | Varata | - |
E0100 | E01EF | Vaihtoehtoiset valitsimet täydentävät | |
E01F0 | EFFFF |
Varattu ( osa 1 ) ( osa 2 ) ( osa 3 ) ( osa 4 ) ( osa 5 ) ( osa 6 ) ( osa 7 ) ( osa 8 ) ( osa 9 ) ( osa 10 ) ( osa 11 ) ( osa 12 ) ( Osa 13 ) ( Osa 14 ) ( Osa 15 ) ( Osa 16 ) ( Osa 17 ) |
- |
Koodipisteet | Virallinen estonimi | Virallinen PDF | Kommentit | |
---|---|---|---|---|
alkaa | Loppu | |||
F0000 | FFFFF |
Lisävyöhyke A yksityiseen käyttöön ( osa 1 ) ( osa 2 ) ( osa 3 ) ( osa 4 ) ( osa 5 ) ( osa 6 ) ( osa 7 ) ( osa 8 ) ( osa 9 ) ( osa 10 ) ( osa 11 ) ( Osa 12 ) ( Osa 13 ) ( Osa 14 ) ( Osa 15 ) ( Osa 16 ) ( Osa 17 ) |
UF0000 | Ei virallisesti määriteltyä ominaisuutta |
100 000 | 10FFFF |
Lisävyöhyke B yksityiseen käyttöön ( osa 1 ) ( osa 2 ) ( osa 3 ) ( osa 4 ) ( osa 5 ) ( osa 6 ) ( osa 7 ) ( osa 8 ) ( osa 9 ) ( osa 10 ) ( osa 11 ) ( Osa 12 ) ( Osa 13 ) ( Osa 14 ) ( Osa 15 ) ( Osa 16 ) ( Osa 17 ) |
U100000 | Ei virallisesti määriteltyä ominaisuutta |
Yksityiskäyttöön tarkoitetuilla alueilla ei ole samoja silmiä fontista toiseen, ja siksi niitä tulisi välttää koodattaessa heterogeenisten järjestelmien välisiä vaihtoon tarkoitettuja tekstejä. Nämä yksityisen käytön koodipisteet ovat kuitenkin kelvollisia ja niitä voidaan käyttää missä tahansa Unicode- ja ISO / IEC 10646 -standardien mukaisessa automatisoidussa prosessoinnissa , myös eri järjestelmien välillä, jos niiden käytöstä on yksityinen keskinäinen sopimus.
Jos molemmat osapuolet eivät ole sopineet siitä, näitä merkkejä käyttävät järjestelmät voivat hylätä niitä sisältävät tekstit, koska niiden käsittely ei voinut toimia oikein tai aiheuttaa turvallisuusongelmia; muiden järjestelmien, jotka eivät omista näille merkeille mitään erityistoimintoa, on toisaalta hyväksyttävä ne kelvollisiksi ja pidettävä ne kiinteänä osana tekstejä, ikään kuin ne olisivat graafisia symboleja, vaikka he eivät osaa näyttää oikein.
Ei-merkit ovat kelvollisia koodipisteitä, mutta niitä ei määritetä (eikä koskaan tule) standardoiduille merkeille. Niiden käyttö järjestelmien välillä lähetettyjen tekstien (vaikka ne olisivatkin samanlaisia) koodauksessa on kielletty, koska niitä on mahdotonta tehdä yhteensopiviksi vastaavien koodausten kanssa standardoitujen yleisten muunnosmuotojen (mukaan lukien UTF-8, UTF-16, UTF-32) ja muut standardoitu koodauksia sopusoinnussa Unicode ja ISO / IEC 10646 ( BOCU -1, SCSU , eri versioita kiinalainen standardi GB 18030 , jne. ). Jotkut järjestelmät kuitenkin tuottavat ja käyttävät niitä paikallisesti, mutta tiukasti sisäiseen käsittelyyn, jonka on tarkoitus helpottaa tekstinkäsittelyalgoritmien toteuttamista muita standardoituja merkkejä käyttäen.
Viimeksi mainittujen ei-merkkien joukossa on kelvollisia koodipisteitä, jotka on varattu puolialueille (yksityisille tai ei). Näitä koodipisteitä ei voida käyttää erikseen merkin koodaamiseen. Niitä käytetään vain UTF-16-universaalimuunnosmuodossa (ja vastaavissa koodausmenetelmissä) edustamaan kahdessa koodipisteessä (kussakin 16 bittiä) kelvollisia koodipisteitä yhdessä 16 täydentävästä tasosta (tietyt koodipisteiden yhdistelmät vastaavat kelvollisia merkkejä nämä suunnitelmat, tavalliset tai yksityiset, muut yhdistelmät eivät välttämättä kuvaa mitään kelvollista luonnetta, koska ne vastaavat näiden täydentävien suunnitelmien muita kuin merkkejä, ja ovat siksi kiellettyjä standardin mukaisissa teksteissä.
Muut vapaat alueet (joita ei ole osoitettu standardoidulle nimetylle lohkolle tai koodikohdat, jotka on jätetty vapaiksi ja varattu olemassa oleviin nimettyihin lohkoihin) on varattu tulevaa käyttöä varten tulevissa Unicode- ja ISO / IEC 10646 -versioissa , mutta ovat kelvollisia. Kaikkien järjestelmien, jotka käsittelevät näitä varattuja koodipisteitä sisältäviä tekstejä, on hyväksyttävä ne suodattamatta. Unicode määrittelee oletetut vastaavat merkit oletusominaisuuksien säilyttämiseksi (Unicode-standardin mukaisten) järjestelmien yhteensopivuus tulevaisuuden niitä vastaavien tekstien kanssa. Mikään vaatimustenmukainen sovellus ei saa antaa heille erikoismerkkiä tai semantiikkaa (yksityiset alueet on tarkoitettu tähän käyttöön).