Уникод

Из Википедије, слободне енциклопедије
Emblem-important.svg Овом чланку или једном његовом делу је потребно сређивање.

Чланак је означен овим шаблоном 00.00.0000. и налази се у категорији Рачунарство и информатика.
Погледајте како се мења страница или страницу за разговор за помоћ. Уклоните ову поруку када завршите.

Ovaj članak daje pregled načina kodiranja višejezičnog teksta u elektronskoj formi koristeći Unicode стандард, са посебним освртом на варијанту UTF-8.

UTF-8 варијанта је најзгоднија за кодирање већински латиничног текста. Дато је и кратко упутство за коришћење те варијанте у Microsoft Word-у, Netscape Composer-у и текстуалном едитору Kate. У тексту су такође препоручени стандардни Unicode фонтови који омогућавају лаку преносивост текста са рачунара на рачунар или за објављивање текста на Интернет.

Садржај

[уреди] Развој електронског записа текста

Први рачунари су били прављени претежно за енглеско говорно подручје и имали су подршку само за енглески алфабет, за бројеве, заграде и још понеки контролни знак, што је чинило укупно 128 могућих слова (у 7 бита). То је био тзв. ASCII или US-ASCII стандард.

Касније је скуп знакова проширен на 256 (8 бита), а „горњих“ 128 карактера је било коришћено за додатне знакове. Из неке навике је и овај проширени ASCII називан ASCII, тако да ту често долази до забуне. Да би постојала подршка за више језика, смишљане су тзв. кодне стране (Code Page) које дефинишу понашање тог додатног скупа слова. Основна кодна страна на персоналним рачунарима (PC437) у том горњем сету карактера дефинише разне графичке знакове за цртање текстуалних прозора и слично. Касније је развијено још пуно кодних страна које подржавају одређене језике. Тако постоје Latin1 (ISO-8859-1) за латинична писма Западне Европе (Француска, Њемачка, Шпанија, ...), Latin2 (ISO-8859-2) и Windows-1250 за латинична писма Источне Европе (наша латиница и сл.), ISO-8859-5, KOI8-R и Windows-1251 за ћирилицу... Основни проблем са кодним странама је то што се међусобно искључују, тј. цијели документ мора да буде написан истим писмом. То углавном није проблем реализовати, али ако би било потребно помијешати два писма, као на пример у неком туристичком водичу где заједно постоји и текст на српском, на енглеском и на француском, наилази се на проблем. Због тога се дошло до идеје да се направи јединствени запис за све језике - Unicode.

[уреди] Преглед постојећих верзија Уникода

Постоји више верзија Уникода. Основна верзија је двобајтни формат записа до 216 = 65536 карактера. Њен назив је UCS-2 зато што користи два октета, односно два бајта. Са тих 65536 карактера ријешен је проблем записа скоро свих постојећих писама (укључујући чак и нека измишљена, као на пример клингонско писмо). Овај тип Уникода се назива Plain UCS-2 или UTF-16.

Сада се јавља проблем алокације простора за Уникод поруку на медијуму који се користи. Ако је реч о неком документу на диску, он ће да заузима дупло више простора него конвенционалан документ јер ће се сваки карактер записивати са два бајта уместо само са једним. Ако је ријеч о преносу података преко рачунарске мреже, биће потребно пренијети дупло више података, па ће самим тим и пренос да траје дупло више (односно да кошта дупло више). Поставља се питање да ли је то сувише велика цијена за универзално писмо и да ли постоји неки начин да се тај проблем превазиђе и избјегне. Као рјешење увијек стоји могућност да се записује неком одговарајућом кодном страницом и троши бајт по карактеру, ако није неопходно коришћење више писама у истом документу (што се ријетко дешава). Друго рјешење је коришћење тзв. трансформационих шема за погоднији запис и пренос података коришћењем Уникода.

Прво је развијена Уникод трансформациона шема са основном јединицом од 8 бита (UTF-8). Помоћу ње се карактер записује у једном, два или три бајта, у зависности од тога о ком је карактеру реч. Ова трансформациона шема је превасходно згодна за употребу у језицима који користе латиницу. О UTF-8 ће бити више речи у поглављу Укратко о UTF-8.

Један дио Mail Transfer Agent-а, као и званични стандард за [[E-mail|електронску пошту]] (IETF: STD 11, RFC 822) подржава само 7-битне mail поруке. MIME стандарди (RFC 2045, RFC 2046, RFC 2047, RFC 2048 и RFC 2049) омогућавају пренос вишебитних ријечи преко Интернет mail-а, користећи Base64 и Quoted Printable начине кодирања, међутим, они нису прављени за пренос Уникода него за пренос било каквих фајлова и нису били најоптималнија рјешења. Због тога је касније развијена 7-битна трансформациона шема UTF-7. Ту се карактер записује у једном или у неколико бајтова, слично као и у UTF-8. Основна разлика је у томе што UTF-7 користи само Base64 карактере који без проблема могу да се преносе путем електронске поште. За такву намену се показало да је UTF-7 оптималнији запис него UTF-8 када се кодира са Base64 или са Quoted Printable алгоритмима кодирања.

Постоји и новији Уникод стандард под називом UCS-4 који користи 4 бајта за запис 231 = 2147483648 знакова подијељених у тзв. равни. Прва два бајта дефинишу раван, тако да има 215 = 32768 равни. Друга два бајта дефинишу карактер унутар равни, тако да има 216 = 65536 карактера по равни. Тај новији формат је више направљен као план за будућност него као реална опција, пошто још увијек ниједан карактер није алоциран у новодобијени простор, односно сви за сада дефинисани карактери (цијели UCS-2) се налазе у равни 0 или основној вишејезичној равни (Basic Multilingual Plane, BMP). Међутим, пошто је UCS-4 нови стандард за Уникод, треба и њега имати у виду. Да би се UCS-4 транспарентно увео у употребу редефинисани су формати записа UTF-7, UTF-8, UTF-16 и UTF-32. То је учињено тако да сваки карактер из UCS-2 има исту репрезентацију у UTF-7 и UTF-8 као и раније. UTF-16 је у неку руку синоним за UCS-2 и садржи више од два бајта само у случају да се кодира неки карактер ван "Основне језичке равни" (BMP), који за сада не постоје. За више информација, погледајте табелу Шема кодирања UCS-4 у UTF-8. UTF-32 је у ствари начин записа UCS-4 у коме се користе сва четири бајта. Због тога што виши и нижи бајт (или два бајта) могу да се запишу у меморију на два начина, постоје још по двије подваријанте UTF-16 и UTF-32 које се разликују по редоследу бајтова. То су UTF-16BE (big endian) и UTF-16LE (little endian) и UTF-32BE и UTF-32LE. Ово није уведено да би се увела додатна забуна и збрка, него зато што различите архитектуре рачунара различито чувају податке.

Такође бих желио да напоменем да постоје двије организације које дефинишу два стандарда за Уникод. Један формат је развијен од стране тзв. The Unicode Consortium под називом The Unicode Standard. Други стандард је развила Међународна организација за стандардизацију - International Organization for Standardization, под називом ISO/IEC 10646. Та два стандарда су скоро идентична и разликују се по питању тзв. Хан унификације (представљање јапанских, кинеских и корејских знакова једним јединственим скупом знакова), око додатних карактера за дефинисање акцената, а од скоро и у томе што Unicode Consortium није још подржао UCS-4 стандард. Међутим, за нашу употребу слободно можемо да сматрамо да су потпуно идентични. Међународна организација која дефинише стандарде за Интернет - Internet Engineering Task Force, IETF је у својим стандардима, тзв. "захтјевима за коментарима" (Request for Comments, RFC), у којима је дефинисано све што постоји на Интернету, прихватила UTF-7 (RFC 1642 и RFC 2152), UTF-8 (RFC 2044 и RFC 2279) и UTF-16 (RFC 2781), чиме су они и "званично" ушли у употребу на Интернету, тј. свуда. У најновијим стандардима IETF је изоставио Unicode Consortium и користи само верзију ISO 10646, што значи да је званично призната верзија ISO 10646.

У HTML језику за опис веб страница се јављају још два начина за кодирање Уникод карактера. Ови начини троше много више простора него оригинални Уникод запис и намијењени су за коришћење унутар неке од кодних страница за убацивање понеког карактера из неке друге кодне странице. Један начин је запис окталних вредности UTF-8 бајтова. Записује се тако што се прво запише карактер \, па онда октална вриједност бајта. Ако тај карактер у UTF-8 кодирању садржи више бајтова, сваки бајт се записује на исти начин. Тако, на примјер, карактер Ф чији је UCS-2 код U+0424 (U+ означава да је ријеч о Уникод карактеру), а UTF-8 запис 0xD0 0xA4 има свој HTML октални запис као \320\244, пошто је 0xD0 = 0320(октални) = 208(децимални) и 0xA4 = 0244 = 164.

Други начин записа Уникод карактера у HTML-у је путем децималне вриједности њиховог UCS-2 кода. Записује се тако што се прво запишу карактери &#, па онда децимална вриједност UCS-2 кода и на крају карактер ;. Тако би се, на примјер, горе поменути карактер Ф са UCS-2 кодом U+0424 записао у HTML децималном запису као Ф, пошто је 0x0424 = 02044 = 1060.

[уреди] Укратко о UTF-8

UTF-8 је замишљен као формат који највише одговара латиничном тексту. То је веома погодно за коришћење у изворном коду програма или у разноразним [[markup језици]]ма (HTML, XML, \LaTeX, ...) јер су стандардне команде тих програмских/markup језика увијек ASCII, а текст који се користи може да буде и ASCII и UTF-8. На тај начин се не омета рад програмског компајлера или парсера markup језика, а омогућава се коришћење вишејезичке подршке.

У UTF-8 се карактер записује у облику једног бајта ако у свом запису садржи само најнижих 7 бита, односно, ако је реч о ASCII карактеру (види поглавље Развој електронског записа текста). Уколико карактер у свом Уникод запису садржи само најнижих 11 бита, у UTF-8 се записује у облику два бајта. И на крају, ако карактер садржи свих 16 бита, записује се у облику три бајта. У табели 1 је дата шема како се UCS-4 трансформише у UTF-8. Табела је дата за пун, четворобајтни Уникод, а ако је реч о двобајтном Уникоду, тј. о UCS-2, треба гледати само прва три реда у табели. Детаљнији опис алгоритма за трансформацију може се наћи у RFC 2279.

UTF-8 није најоптималнији начин записа за кинески и јапански текст јер умјесто да се користе два бајта по карактеру, за такав текст би било коришћено чак три бајта по карактеру, али то и није толико важно за нас. За ћирилични текст је, са друге стране, свеједно да ли се користи чисти Unicode или UTF-8, пошто се сваки ћирилични карактер записује у облику два бајта и у једном и у другом формату. За нас је ипак оптималнији UTF-8 јер постоји могућност писања и ћирилицом и латиницом, па ако у ћирилици већ не може да се избјегне употреба два бајта, у латиници се скоро сви карактери записују само једним бајтом (осим шђчћж).


Табела: Шема кодирања УЦС-4 у УТФ-8
УЦС-4 опсег (хеx.) УТФ-8 бинарни запис
0000 0000-0000 007Ф 0xxxxxxx
0000 0080-0000 07ФФ 110xxxxx 10xxxxxx
0000 0800-0000 ФФФФ 1110xxxx 10xxxxxx 10xxxxxx
0001 0000-001Ф ФФФФ 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
0020 0000-03ФФ ФФФФ 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
0400 0000-7ФФФ ФФФФ 1111110x 10xxxxxx ...10xxxxxx

[уреди] Коришћење УТФ-8 у програмима

[уреди] Мицрософт Wорд фор Wиндоwс

Један од најчешће коришћених програма за обраду текста под Wиндоwс "оперативним системом" је Мицрософт Wорд фор Wиндоwс. Он у свом формату већ има подршку за више језика. Ако је потребно да се неки Wорд документ пребаци на Интернет у облику ХТМЛ фајла, потребно је нагласити да се сачува у УТФ-8 формату. То отприлике изгледа овако:

  1. Прво треба написати сам документ, наравно.
  2. Када се документ пребацује на Интернет, треба из Филе менија изабрати опцију Саве ас Wеб.
  3. У дијалогу који ће се појавити треба изабрати гдје се чува фајл и прије него што се стварно сачува, треба из менија тоолс изабрати опцију Wеб Оптионс.
  4. У новоотвореном дијалогу треба изабрати страницу Енцодинг и ту у пољу Саве тхис доцумент ас изабрати Уницоде (УТФ-8).


[уреди] Нетсцапе Цоммуницатор - Цомпосер

Популарни Wеб читач Нетсцапе Цоммуницатор у свом склопу има и едитор за Wеб странице, тзв. Цомпосер. Он наравно може да бира на који начин ће да чува Wеб странице и може да изабере и Уницоде и то и УТФ-8 и УТФ-7. Нас занима само УТФ-8, мада је поступак мање - више исти.

Постоје два начина да се у Нетсцапе Цомпосер-у текст сачува у УТФ-8 формату. Могуће је једноставно изабрати из менија Виеw опцију Цхарсет и ту изабрати УТФ-8 као формат.Послије тога се фајл најнормалније сачува и буде сачуван у УТФ-8 формату.

Други начин је да се фајл сачува умјесто опцијом Филе->Саве, опцијом Филе->Саве Ас Цхарсет. Тада се добија дијалог у коме може да се изабере начин записа фајла и ту треба изабрати УТФ-8.


[уреди] Текст едитор Кате

Неки текстуални едитори такође имају опцију да текст сачувају на више начина кодирања. Један од таквих је Кате који је саставни део КДЕ графичког окружења под ЛИНУX оперативним системом. Он такође може да сачува текст и у чистом УЦС-2 формату или у УТФ-16 (као делу УЦС-4). За нас је битан само формат УТФ-8. Једноставно се из менија Приказ изабере подмени Подеси кодирање и ту се изабере жељено кодирање, односно УТФ-8.


[уреди] Ицонв - конвертор кодирања

На УНИX оперативним системима постоји библиотека ицонв која врши конверзију из једног у други начин кодирања на веома једноставан начин. Постоји и еквивалентан цомманд лине програм који конвертује фајлове из и у све могуће начине кодирања. Листа кодова из којих и у које ова библиотека/програм може да конвертује заузима више од 3 пуне стране и може се рећи да подржава све могуће начине кодирања.


[уреди] Фонтови који подржавају Уницоде

Да би се користио Уницоде у припреми докумената, потребно је имати одговарајуће фонтове који га (барем дјелимично) подржавају. Од фонтова доступних на Wиндоwс-у, Уницоде сигурно подржавају Ариал, Тимес Неw Роман, Хелветица, Вердана и Цоуриер Неw фонтови, а такође су инсталирани на свим Wиндоwс платформама, тако да би генерално требало да се користи неки од тих фонтова. Фонтови типа ТимесЦирилица или YУЛТимес могу да прикажу наше карактере, али су далеко од Уницоде-а и у преносу фајла са једног на други рачунар у електронском облику постоји велика шанса да тај фајл неће бити лепо читљив на другом рачунару, тако да би требало да се такви нестандардни фонтови избегавају колико год је то могуће.

На ЛИНУX-у и осталим УНИX-има се у самом називу фонта види да ли подржава уницоде или не, пошто последњи део назива фонта представља цхарацтер сет фонта. Ако ту пише исо10646, то значи да је фонт Уницоде компатибилан. Међутим, и овде бих ради преносивости докумената, препоручио да се користе стандардни (Адобе) фонтови, као што су Тимес (-адобе-тимес-*-исо10646-1), Утопиа (-адобе-утопиа-*-исо10646-1), Хелветица (-адобе-хелветица-*-исо10646-1), Цоуриер (-адобе-цоуриер-*-исо10646-1).

[уреди] Уницоде, базе података и XМЛ

Свјетски трендови развоја база података иду ка увођењу Уницоде-а, као стандардни начин записа података и XМЛ-а, као стандарни језик за пренос и презентацију тих података.

Већина база података већ дуже време подржава Уницоде. Добар део апликација за рад са базама користе XМЛ за презентовање и пренос података, зато што се показало да је XМЛ једноставан језик за програмирање, за који већ постоји пуно парсер-а и зато што се показало да је XМЛ довољно флексибилан да може да пренесе било какав тип података на сличан начин. Да би се програми међусобно "разумјели", развијени су разни стандарди за опис података користећи XМЛ (као што је, на пријмер, Енцодед Арцхивал Десцриптион стандард).

То увођење XМЛ-а као главног језика за подршку базама података је још више учврстило позицију Уницоде-а, пошто се XМЛ фајлови стандардно пишу у УТФ-8 или УТФ-16. Занимљива је и та чињеница да је Мицрософт, који се углавном противи свим стандардима и труди се да дефинише своје, прихватио XМЛ и користи га гдје год може. Цела .НЕТ технологија је XМЛ базирана. Због тога може да се очекује да ће у будућности бити само више XМЛ-а и више Уницоде-а и да је битно што раније се оријентисати ка њима.



[уреди] Табела кодова за наша слова

У табели 2 су излистани скоро сви карактери који се код нас користе, са својим УЦС-2 кодом, УТФ-8 записом и са ХТМЛ окталним и децималним записима (за више информација погледајте поглавље 2).

Карактер Изглед УТФ-8 октална децимална
Велика латинична слова
У+0041 А 0x41 \101 A
У+0042 Б 0x42 \102 B
У+0043 C 0x43 \103 C
У+0044 D 0x44 \104 D
У+0045 Е 0x45 \105 E
У+0046 Ф 0x46 \106 F
У+0047 Г 0x47 \107 G
У+0048 Х 0x48 \110 H
У+0049 I 0x49 \111 I
У+004А Ј 0x4А \112 J
У+004Б К 0x4Б \113 K
У+004Ц L 0x4Ц \114 L
У+004Д M 0x4Д \115 M
У+004Е Н 0x4Е \116 N
У+004Ф О 0x4Ф \117 O
У+0050 П 0x50 \120 P
У+0051 Q 0x51 \121 Q
У+0052 Р 0x52 \122 R
У+0053 С 0x53 \123 S
У+0054 Т 0x54 \124 T
У+0055 У 0x55 \125 U
У+0056 V 0x56 \126 V
У+0057 W 0x57 \127 W
У+0058 X 0x58 \130 X
У+0059 Y 0x59 \131 Y
У+005А З 0x5А \132 Z
Мала латинична слова
У+0061 а 0x61 \141 a
У+0062 б 0x62 \142 b
У+0063 ц 0x63 \143 c
У+0064 д 0x64 \144 d
У+0065 е 0x65 \145 e
У+0066 ф 0x66 \146 e
У+0067 г 0x67 \147 g
У+0068 х 0x68 \150 h
У+0069 и 0x69 \151 i
У+006А ј 0x6А \152 j
У+006Б к 0x6Б \153 k
У+006Ц л 0x6Ц \154 l
У+006Д м 0x6Д \155 m
У+006Е н 0x6Е \156 n
У+006Ф о 0x6Ф \157 o
У+0070 п 0x70 \160 p
У+0071 q 0x71 \161 q
У+0072 р 0x72 \162 r
У+0073 с 0x73 \163 s
У+0074 т 0x74 \164 t
У+0075 у 0x75 \165 u
У+0076 в 0x76 \166 v
У+0077 w 0x77 \167 w
У+0078 x 0x78 \170 x
У+0079 y 0x79 \171 y
У+007А з 0x7А \172 z
Наша додатна латинична слова
У+0106 Ћ 0xЦ4 0x86 \304\206 Ć
У+0107 ћ 0xЦ4 0x87 \304\207 ć
У+010Ц Ч 0xЦ4 0x8Ц \304\214 Č
У+010Д ч 0xЦ4 0x8Д \304\215 č
У+0110 Ђ 0xЦ4 0x90 \304\220 Đ
У+0111 ђ 0xЦ4 0x91 \304\221 đ
У+0160 Ш 0xЦ5 0xА0 \305\240 Š
У+0161 ш 0xЦ5 0xА1 \305\241 š
У+017Д Ж 0xЦ5 0xБД \305\275 Ž
У+017Е ж 0xЦ5 0xБЕ \305\276 ž
Велика ћирилична слова
У+0402 Ђ 0xД0 0x82 \320\202 Ђ
У+0408 Ј 0xД0 0x88 \320\210 Ј
У+0409 Љ 0xД0 0x89 \320\211 Љ
У+040А Њ 0xД0 0x8А \320\212 Њ
У+040Б Ћ 0xД0 0x8Б \320\213 Ћ
У+040Ф Џ 0xД0 0x8Ф \320\217 Џ
У+0410 А 0xД0 0x90 \320\220 А
У+0411 Б 0xД0 0x91 \320\221 Б
У+0412 В 0xД0 0x92 \320\222 В
У+0413 Г 0xД0 0x93 \320\223 Г
У+0414 Д 0xД0 0x94 \320\224 Д
У+0415 Е 0xД0 0x95 \320\225 Е
У+0416 Ж 0xД0 0x96 \320\226 Ж
У+0417 З 0xД0 0x97 \320\227 З
У+0418 И 0xД0 0x98 \320\230 И
У+041А К 0xД0 0x9А \320\232 К
У+041Б Л 0xД0 0x9Б \320\233 Л
У+041Ц М 0xД0 0x9Ц \320\234 М
У+041Д Н 0xД0 0x9Д \320\235 Н
У+041Е О 0xД0 0x9Е \320\236 О
У+041Ф П 0xД0 0x9Ф \320\237 П
У+0420 Р 0xД0 0xА0 \320\240 Р
У+0421 С 0xД0 0xА1 \320\241 С
У+0422 Т 0xД0 0xА2 \320\242 Т
У+0423 У 0xД0 0xА3 \320\243 У
У+0424 Ф 0xД0 0xА4 \320\244 Ф
У+0425 Х 0xД0 0xА5 \320\245 Х
У+0426 Ц 0xД0 0xА6 \320\246 Ц
У+0427 Ч 0xД0 0xА7 \320\247 Ч
У+0428 Ш 0xД0 0xА8 \320\250 Ш
Мала ћирилична слова
У+0430 а 0xД0 0xБ0 \320\260 а
У+0431 б 0xД0 0xБ1 \320\261 б
У+0432 в 0xД0 0xБ2 \320\262 в
У+0433 г 0xД0 0xБ3 \320\263 г
У+0434 д 0xД0 0xБ4 \320\264 д
У+0435 е 0xД0 0xБ5 \320\265 е
У+0436 ж 0xД0 0xБ6 \320\266 ж
У+0437 з 0xД0 0xБ7 \320\267 з
У+0438 и 0xД0 0xБ8 \320\270 и
У+043А к 0xД0 0xБА \320\272 к
У+043Б л 0xД0 0xББ \320\273 л
У+043Ц м 0xД0 0xБЦ \320\274 м
У+043Д н 0xД0 0xБД \320\275 н
У+043Е о 0xД0 0xБЕ \320\276 о
У+043Ф п 0xД0 0xБФ \320\277 п
У+0440 р 0xД0 0xЦ0 \320\280 р
У+0441 с 0xД0 0xЦ1 \320\281 с
У+0442 т 0xД0 0xЦ2 \320\282 т
У+0443 у 0xД0 0xЦ3 \320\283 у
У+0444 ф 0xД0 0xЦ4 \320\284 ф
У+0445 х 0xД0 0xЦ5 \320\285 х
У+0446 ц 0xД0 0xЦ6 \320\286 ц
У+0447 ч 0xД0 0xЦ7 \320\287 ч
У+0448 ш 0xД0 0xЦ8 \320\290 ш
У+0452 ђ 0xД1 0x92 \321\222 ђ
У+0458 ј 0xД1 0x98 \321\230 ј
У+0459 љ 0xД1 0x99 \321\231 љ
У+045А њ 0xД1 0x9А \321\232 њ
У+045Б ћ 0xД1 0x9Б \321\233 ћ
У+045Ф џ 0xД1 0x9Ф \321\237 џ


[уреди] Библиографија

  1. Филип Брчић.
    Укратко о xмл-у, Јануар 2003.
    http://brcha.free.fr/documents/XMLtut/xmltut.pdf.
  2. Тхе Уницоде Цонсортиум.
    Тхе Уницоде Стандард - Версион 3.0.
    Аддисон-Wеслеy, http://www.unicode.org, 2000.
  3. Wорлд Wиде Wеб Цонсортиум.
    Еxтенсибле маркуп лангуаге (xмл) 1.1.
    Цандидате рецоммендатион, http://www.w3c.org/TR/xml11, 2002.
  4. M. Давис D. Голдсмитх.
    Утф-7 - а маил-сафе трансформатион формат оф уницоде.
    Еxпериментал 1642, Интернет Енгинееринг Таск Форце, http://www.ietf.org/rfc/rfc1642.txt, 1994.
  5. M. Давис D. Голдсмитх.
    Утф-7 - а маил-сафе трансформатион формат оф уницоде.
    Информатионал 2152, Интернет Енгинееринг Таск Форце, http://www.ietf.org/rfc/rfc2152.txt, 1997.
  6. Улрицх Дреппер.
    МАНПАГЕ: Ицонв(3) 2.2.5 - Перформ цхарацтер сет цонверсион.
    Фрее Софтwаре Фоундатион, Инц., 2002.
  7. Бојан Маринковић <мр99007@алас.матф.бг.ац.yу>.
    Енцодед арцхивал десцриптион доцумент тyпе дефинитион.
    2003.
  8. К. Мооре.
    Мултипурпосе интернет маил еxтенсионс (миме) парт тхрее: Мессаге хеадер еxтенсионс фор нон-асции теxт.
    Стандардс Трацк 2047, Интернет Енгинееринг Таск Форце, http://www.ietf.org/rfc/rfc2047.txt, 1996.
  9. Ј. Постел Н. Фреед, Ј. Кленсин.
    Мултипурпосе интернет маил еxтенсионс (миме) парт фоур: Регистратион процедурес.
    Стандардс Трацк 2048, Интернет Енгинееринг Таск Форце, http://www.ietf.org/rfc/rfc2048.txt, 1996.
  10. Н. Боренстеин Н. Фреед.
    Мултипурпосе интернет маил еxтенсионс (миме) парт фиве: Цонформанце цритериа анд еxамплес.
    Стандардс Трацк 2049, Интернет Енгинееринг Таск Форце, http://www.ietf.org/rfc/rfc2049.txt, 1996.
  11. Н. Боренстеин Н. Фреед.
    Мултипурпосе интернет маил еxтенсионс (миме) парт оне: Формат оф интернет мессаге бодиес.
    Стандардс Трацк 2045, Интернет Енгинееринг Таск Форце, http://www.ietf.org/rfc/rfc2045.txt, 1996.
  12. Н. Боренстеин Н. Фреед.
    Мултипурпосе интернет маил еxтенсионс (миме) парт тwо: Медиа тyпес.
    Стандардс Трацк 2046, Интернет Енгинееринг Таск Форце, http://www.ietf.org/rfc/rfc2046.txt, 1996.
  13. Ф. Yергеау П. Хоффман.
    Утф-16, ан енцодинг оф исо 10646.
    Информатионал 2781, Интернет Енгинееринг Таск Форце, http://www.ietf.org/rfc/rfc2781.txt, 2000.
  14. Ф. Yергеау.
    Утф-8, а тренсформатион формат оф уницоде анд исо 10646.
    Информатионал 2044, Интернет Енгинееринг Таск Форце, http://www.ietf.org/rfc/rfc2044.txt, 1996.
  15. Ф. Yергеау.
    Утф-8, а трансформатион формат оф исо 10646.
    Стандардс Трацк 2279, Интернет Енгинееринг Таск Форце, http://www.ietf.org/rfc/rfc2279.txt, 1998.

[уреди] Izvori

Викиостава
Викимедијина остава има још мултимедијалних датотека везаних за: Unikod


Лични алати
Именски простори

Ћирилица

Варијанте
Радње
навигација
техничке
Штампај/извези
алати
Други језици