統一(yi)(yi)碼聯盟(meng)是(shi)一(yi)(yi)個致(zhi)力于開發,維護,發展全球通用軟件標準(zhun)和數據格(ge)式,特別(bie)是(shi)維護Unicode編(bian)碼標準(zhun)的非牟利機構。統一(yi)(yi)碼聯盟(meng)制定了一(yi)(yi)種可以對全球幾乎(hu)所有語(yu)言文字進行(xing)編(bian)碼的標準(zhun)。
其(qi)宗旨(zhi)為最終以統一(yi)碼取代現存(cun)的字符編(bian)碼。因(yin)為現存(cun)編(bian)碼不能夠(gou)在(zai)多語言計(ji)算(suan)機環(huan)境中使用,而且字符數有(you)局限。同時它也制定了數種統一(yi)碼轉換格式(UTF,Unicode Transformation Format)。
Unicode是(shi)為了解決傳統(tong)的(de)(de)字符編碼方案的(de)(de)局限而(er)產生的(de)(de),例如ISO 8859-1所定義(yi)的(de)(de)字符雖然在(zai)(zai)不同(tong)的(de)(de)國家中廣泛地(di)使用(yong),可是(shi)在(zai)(zai)不同(tong)國家間卻經常出(chu)現不兼容的(de)(de)情況(kuang)。
很多傳統的(de)編(bian)碼(ma)方式都(dou)有一(yi)個共同的(de)問題,即容許計算機(ji)處(chu)理雙語環境(jing)(jing)(通常(chang)使用(yong)拉丁字母以及其本地語言),但卻無(wu)法同時(shi)支(zhi)持多語言環境(jing)(jing)(指可同時(shi)處(chu)理多種語言混合的(de)情(qing)況)。Unicode編(bian)碼(ma)包含了(le)不同寫法的(de)字,如“ɑ/a”、“強(qiang)/強(qiang)”、“戶(hu)/戶(hu)/戸”。然而在漢(han)字方面引起了(le)一(yi)字多形(xing)的(de)認定爭議(詳(xiang)見中日韓統一(yi)表意(yi)文字主題)。
在文字(zi)(zi)處(chu)理(li)(li)方(fang)面,統一(yi)(yi)(yi)碼(ma)為每一(yi)(yi)(yi)個(ge)(ge)字(zi)(zi)符而(er)非字(zi)(zi)形定義(yi)唯一(yi)(yi)(yi)的(de)代碼(ma)(即一(yi)(yi)(yi)個(ge)(ge)整數)。換句話(hua)說(shuo),統一(yi)(yi)(yi)碼(ma)以一(yi)(yi)(yi)種抽象的(de)方(fang)式(即數字(zi)(zi))來(lai)(lai)處(chu)理(li)(li)字(zi)(zi)符,并將視覺上的(de)演繹工作(zuo)(例(li)如字(zi)(zi)體大小、外觀形狀、字(zi)(zi)體形態(tai)、文體等)留給(gei)其(qi)他(ta)軟件來(lai)(lai)處(chu)理(li)(li),例(li)如網頁瀏(liu)覽器或是文字(zi)(zi)處(chu)理(li)(li)器。
幾乎所(suo)有計算(suan)機系統都支持(chi)基(ji)本(ben)拉丁字(zi)(zi)母(mu),并(bing)各自支持(chi)不同的(de)其(qi)他編(bian)碼方式。Unicode為了和它們相互兼容,其(qi)首256字(zi)(zi)符保留給ISO 8859-1所(suo)定義的(de)字(zi)(zi)符,使(shi)既有的(de)西歐語(yu)系文字(zi)(zi)的(de)轉(zhuan)換(huan)不需特別(bie)考量;
并且把大量相同的字(zi)符(fu)重復編到不同的字(zi)符(fu)碼(ma)中去,使得舊有(you)紛(fen)雜(za)的編碼(ma)方式(shi)(shi)得以和Unicode編碼(ma)間互(hu)相直接轉換,而不會丟失任何信息。舉(ju)例來(lai)說,全角格(ge)式(shi)(shi)區段(duan)包(bao)含了主要的拉(la)丁(ding)字(zi)母的全角格(ge)式(shi)(shi),
在(zai)中(zhong)文(wen)、日(ri)文(wen)、以及韓文(wen)字(zi)形當中(zhong),這些字(zi)符以全角的方式(shi)來呈現,而(er)不以常見的半(ban)角形式(shi)顯示(shi),這對豎排文(wen)字(zi)和等寬排列文(wen)字(zi)有重要作用。
在(zai)表示(shi)一(yi)個(ge)Unicode的(de)字(zi)符(fu)時,通常會用“U+”然(ran)后緊(jin)接著一(yi)組十(shi)(shi)六(liu)(liu)(liu)進制的(de)數字(zi)來表示(shi)這一(yi)個(ge)字(zi)符(fu)。在(zai)基本多(duo)文(wen)種平(ping)面(英文(wen):Basic Multilingual Plane,簡寫BMP。又稱(cheng)為“零(ling)號(hao)平(ping)面”、plane 0)里的(de)所有字(zi)符(fu),要(yao)用四位十(shi)(shi)六(liu)(liu)(liu)進制數(例如U+4AE0,共支持六(liu)(liu)(liu)萬多(duo)個(ge)字(zi)符(fu));
在零(ling)號平面以外的字(zi)符則需(xu)要使用(yong)五(wu)位(wei)或六(liu)位(wei)十(shi)六(liu)進制數了。舊版的Unicode標準(zhun)使用(yong)相(xiang)近的標記方法,但卻有些微小差異:在Unicode 3.0里(li)使用(yong)“U-”然后緊接著八位(wei)數,而“U+”則必(bi)須隨后緊接著四(si)位(wei)數。
位于(yu)美(mei)國(guo)加州的Unicode組織允許任何(he)愿意(yi)支付會(hui)費的公(gong)司和個人加入,其(qi)成員包含了主要的計(ji)算機軟硬(ying)件廠商,例如奧多比系(xi)統、蘋(pin)果公(gong)司、惠普、IBM、微軟、施樂(le)等。
20世紀(ji)80年代(dai)末,組(zu)成Unicode組(zu)織(zhi)的(de)(de)商業機構(gou),和(he)國際(ji)合作(zuo)的(de)(de)國際(ji)標(biao)準化(hua)組(zu)織(zhi)因(yin)為(wei)計算機普及和(he)信息國際(ji)化(hua)的(de)(de)前提下,分別各自成立了Unicode組(zu)織(zhi)和(he)ISO-10646工(gong)作(zuo)小(xiao)組(zu)。
他(ta)們(men)不久便發(fa)現對方的(de)(de)存在,大(da)家為著相(xiang)同(tong)(tong)(tong)的(de)(de)目的(de)(de)而工作,于(yu)是兩個組(zu)織(zhi)便共同(tong)(tong)(tong)合作開發(fa)適用于(yu)各國語(yu)言的(de)(de)通用碼(ma),而且“相(xiang)當有默契地”各自發(fa)表(biao)Unicode和ISO-10646字(zi)集(ji)。雖然實際上兩者的(de)(de)字(zi)集(ji)編碼(ma)相(xiang)同(tong)(tong)(tong),但實質上兩者確實為兩個不同(tong)(tong)(tong)的(de)(de)標(biao)準(zhun)。
統一碼聯盟在(zai)1991年(nian)首次發布了(le)The Unicode Standard。Unicode的開發結合了(le)國(guo)際標準化組織(zhi)所(suo)制(zhi)定的ISO/IEC 10646,即通用字(zi)符集。Unicode與ISO/IEC 10646在(zai)編碼的運作原理相同,
但The Unicode Standard包(bao)含了更詳(xiang)盡(jin)的實現信(xin)息、涵蓋了更細(xi)節的主題,諸(zhu)如(ru)比特編碼(bitwise encoding)、校對以(yi)及呈現等。The Unicode Standard也(ye)枚舉了諸(zhu)多(duo)的字符特性,包(bao)含了那(nei)些必(bi)須支持兩種(zhong)閱讀(du)方(fang)向的文(wen)字(由左(zuo)至(zhi)(zhi)右或由右至(zhi)(zhi)左(zuo)的文(wen)字閱讀(du)方(fang)向,例如(ru)阿拉伯文(wen)是(shi)由右至(zhi)(zhi)左(zuo))。Unicode與ISO/IEC 10646這兩個標準在(zai)術語上的使用有些微的不(bu)同。
2005年,Unicode的第(di)十萬個字符被引入成為(wei)標(biao)準之(zhi)一,該字符被用于馬(ma)來亞拉姆(mu)語。
2020年(nian),Unicode發(fa)布了13.0,共收錄(lu)143,859個字符。
統一(yi)碼聯(lian)盟由世界各(ge)地主(zhu)要(yao)的電腦制造(zao)商(shang)、軟件開(kai)發商(shang)、數據庫開(kai)發商(shang)、政府部門(men)、研(yan)究機構、國(guo)際機構、各(ge)用戶組織及(ji)個人組成。統一(yi)碼聯(lian)盟的領導者及(ji)管理人員來自(zi)各(ge)個組織及(ji)行業,代表著最廣泛的編碼應用。
統一碼聯(lian)盟包(bao)含三個技術委員會和一個編(bian)輯委員會:Unicode Technical Committee,Unicode CLDR Technical Committee,Unicode Localization Interoperability Technical CommitteeEditorial Committee.
統一碼聯(lian)盟(meng)積極與(yu)各(ge)標準制訂機(ji)構合(he)作,包括國(guo)際(ji)標準化組(zu)織(ISO)、國(guo)際(ji)電工(gong)委(wei)員會(hui)(IEC)、萬維網聯(lian)盟(meng)(W3C)、互聯(lian)網工(gong)程工(gong)作小組(zu)(IETF)和歐(ou)洲計算機(ji)制造協會(hui)(ECMA)等(deng)。
The Unicode® Standard,Version 13.0 – Core Specification, The Unicode Consortium, Addison-Wesley Professional,ISBN 978-1-936213-26-9
The Unicode Standard, Version 5.0, Fifth Edition, The Unicode Consortium, Addison-Wesley Professional, Oct. 27, 2006.ISBN 978-0-321-48091-0
The Unicode Standard, Version 4.0, The Unicode Consortium, Addison-Wesley Professional, Aug. 27, 2003.ISBN 978-0-321-18578-5
《Unicode標(biao)準》(The Unicode Standard)
《字(zi)符數字(zi)庫》(Character Database)
《Unicode技術準備和報告》(Unicode Technical Standards and Reports)
《Unicode技術說明書》(Unicode Technical Notes)等(deng)等(deng)。
統(tong)(tong)一(yi)碼的(de)成(cheng)功讓計算機(ji)使用進(jin)入了一(yi)個新紀元,并應(ying)用于很多新技術,如XML、Java編程語言和現(xian)今的(de)操(cao)作系統(tong)(tong)。