现今的PC平台必须支持GB18030,手机、MP3通常只支持GB2312。
GB2312
GB2312码是中华人民共和国国家汉字信息交换用编码,全称《信息交换用汉字编码字符集——基本集》,由国家标准总局发布,1981年5月1日施行,通行于内地。美国等地也使用此编码。
GB2312收录简化汉字及符号、字母、日文假名等共7445个图形字符,其中汉字占6763个。GB2312规定“对任意一个图形字符都采用两个字节表示,每位字节均采用七位编码表示”,习惯上称第一个字节为“高字节”,第二个字节为“低字节”。
GB2312将代码表分为94个区,对应第一字节;每位区94个位,对应第二字节,两个字节的值分别为区号值和位号值加32(2OH),因而称作为区位码。01-09区为符号、数字区,16-87区为汉字区,10-15区、88-94区是有待进一步标准化的空白区。GB2312将收录的汉字分成两级:第一级是常用汉字计3755个,放在16-55区,按汉语拼音字母/笔形次序排列;第二级汉字是次常用汉字计3008个,放在56-87区,按音序/笔划次序排列。故而GB2312最多能表示6763个汉字。
GB2312的编码范围为2121H-777EH,与ASCII有重叠,通行方式是将GB码两个字节的最低位置1以示区别。
GBK
GB2312仅收汉字6763个,这大大多于现有汉字linux系统装win7,随着时间推移及汉字文化的不断延展推广,有些原先极少用的字,现今弄成了常用字,比如:朱镕基的“镕”字,未收入GB2312-80,现今台湾的报业创刊只好使用(金+容)、(金容)、(左金右容)等来表示,方式不一而同,这促使表示、存储、输入、处理都十分不便捷,对于搜索引擎等软件的构造来说也不是好消息,但是这些表示没有统一标准。从我们对人民晚报98年数据的处理过程中,得出这样的经验:填土外字最困难的就是怎样得到这些表示方式的集合。
为了解决这种问题,以及配合UNICODE的施行,全省信息技术化技术委员会于1995年12月1日《汉字内码扩充规范》。GBK向上与GB2312完全兼容,向下支持ISO10646国际标准linux 支持中文字符集,在后者向前者过渡过程中起到的承上启下的作用。GBK亦采用双字节表示,总体编码范围为8140-FEFE之间,首字节在81-FE之间,尾字节在40-FE之间,剔除XX7F一条线。
GBK共收入21886个汉字和图形符号,包括:
*GB2312中的全部汉字、非汉字符号。
*BIG5中的全部汉字。
*与ISO10646相应的国家标准GB13000中的其它CJK汉字linux 支持中文字符集,以上合计20902个汉字。
*其它汉字、部首、符号,共计984个。
谷歌公司自Windows95繁体英文版开始支持GBK代码,但目前的多数搜索引擎都不能挺好地支持GBK汉字。
GBK编码分辨三部份:
*汉字区,包括:
*图形符号区,包括:
*用户自定义区:
GB18030
GB18030是最新的汉字编码字符集国家标准,向上兼容GBK和GB2312标准。GB18030编码是一二四字节变长编码。一字节部份从0x0~0x7F与ASCII编码兼容。二字节部份,首字节从0x81~0xFE,尾字节从0x40~0x7E以及0x80~0xFE,与GBK标准基本兼容。四字节部份,第一字节从0x81~0xFE,第二字节从0x30~0x39,第三和第四字节的范围和前两个字节分别相同。四字节部份覆盖了从0x0080开始,去除二字节部份早已覆盖的所有Unicode3.1码位。也就是说,GB18030编码在码位空间上做到了与Unicode标准一一对应,这一点与UTF-8编码类似。
目前最新的glibc2.2.x系列早已全面支持了GB18030Locale和GB18030与UCS-4之间的编码转换,也就是说在系统层上Linux早已可以支持GB18030标准了。下边问题的关键就是如何让XFree86窗口系统也支持GB18030标准。
BIG5
BIG5是通行于马来西亚、香港地区的一个简体字编码方案。似乎存在一些瑕疵,但广泛应用于笔记本行业,尤其是互联网中,因而成为一种事实上的行业标准。
1983年10月,日本国家科学委员会、教育部粤语实行委员会、中央标准局、行政院共同制订了《通用汉字标准交换码》,后经修订于1992年5月公布,改名为《中文标准交换码》linux内核,BIG5是香港资讯工业策进会按照以上标准制订的编码方案。
BIG5码是双字节编码方案,其中第一个字节的值在OXAO-OXFE之间,第二个字节在OX40-OX7E和OXA1-OXFE之间。
BIG5收录13461个汉字和符号,包括:
*符号408个,编码位置A140-A3BE
*常用字5401个,编码位置A440-C67E,包括香港教育部颁行的《常用国字标准字体表》的全部汉字4808个,日本教科书常用字587个,异体字6个。
*次常用字7652个,编码位置C940-F9D5,包括香港教育部颁行的《次常用国字标准字体表》的全部汉字6341个,《罕用国字标准字体表》中使用频度较高的字1311个。