努力思考 + 实践, 眼高手低是不行的. 注册 | 登陆

中文字符编码备忘(GB2312、GBK、GB18030)

From: http://www.ibm.com/developerworks/cn/java/jsp_dbcsz/

GB2312-80 是在国内计算机汉字信息技术发展初始阶段制定的,其中包含了大部分常用的一、二级汉字,和 9 区的符号。该字符集是几乎所有的中文系统和国际化的软件都支持的中文字符集,这也是最基本的中文字符集。其编码范围是高位0xa1-0xfe,低位也是 0xa1-0xfe;汉字从 0xb0a1 开始,结束于 0xf7fe;

GBK 是 GB2312-80 的扩展,是向上兼容的。它包含了 20902 个汉字,其编码范围是 0x8140-0xfefe,剔除高位 0x80 的字位。其所有字符都可以一对一映射到 Unicode 2.0,也就是说 JAVA 实际上提供了 GBK 字符集的支持。这是现阶段 Windows 和其它一些中文操作系统的缺省字符集,但并不是所有的国际化软件都支持该字符集,感觉是他们并不完全知道 GBK 是怎么回事。值得注意的是它不是国家标准,而只是规范。随着 GB18030-2000国标的发布,它将在不久的将来完成它的历史使命。

GB18030-2000(GBK2K) 在 GBK 的基础上进一步扩展了汉字,增加了藏、蒙等少数民族的字形。GBK2K 从根本上解决了字位不够,字形不足的问题。它有几个特点,

  • 它并没有确定所有的字形,只是规定了编码范围,留待以后扩充。
  • 编码是变长的,其二字节部分与 GBK 兼容;四字节部分是扩充的字形、字位,其编码范围是首字节 0x81-0xfe、二字节0x30-0x39、三字节 0x81-0xfe、四字节0x30-0x39。
  • 它的推广是分阶段的,首先要求实现的是能够完全映射到 Unicode 3.0 标准的所有字形。
  • 它是国家标准,是强制性的。

Tags: 编码, gb2312, gbk, gb18030

« 上一篇 | 下一篇 »

只显示5条记录相关文章

GBK和UTF-8的区别 (浏览: 6730, 评论: 2)

Trackbacks

点击获得Trackback地址,Encode: UTF-8

1条记录访客评论

帮我看看。。。。。。。
if($this->version() > '5.0.1') {
mysql_query("SET sql_mode=''");//这句是什么意思?他实现的结果是什么?
}
谢了。。。

Post by dajiji on 2009, January 2, 2:17 PM 引用此文发表评论 #1


本文因为某种原因此时不允许访客进行评论