汉字国标码编码规则

汉字国标码编码规则

汉字国标码编码规则

一、概述

汉字国标码(GB Code)是用于在计算机内部表示和存储汉字的编码标准。它由中国国家标准化管理委员会制定,用于统一和规范汉字的计算机编码方式。汉字国标码包括多种版本,其中较为常用的是GB2312、GBK和GB18030等。本文将重点介绍这些标准的编码规则。

二、GB2312编码规则

GB2312是中华人民共和国国家标准总局于1980年发布的第一个汉字编码标准,也称为《信息交换用汉字编码字符集——基本集》。其编码规则如下:

  1. 范围:包含6763个汉字和682个非汉字图形符号。
  2. 结构:采用双字节编码,每个汉字由两个字节组成。
    • 高位字节(区码):取值范围为0xB0-0xF7(十六进制)。
    • 低位字节(位码):取值范围为0xA1-0xFE(十六进制)。
  3. 分区:将汉字分为94个区,每区包含94个位,形成94x94的矩阵。
    • 区号从0x10到0x7E(十进制为16到126),对应ASCII控制字符以外的可打印字符区域。
    • 位号也从0x10到0x7E。
  4. 排列顺序:按拼音排序,同音字按笔画数排序。

三、GBK编码规则

GBK是GB2312的扩展,全称为《国家标准扩展码》,于1995年发布。其编码规则如下:

  1. 范围:包含21003个汉字和883个符号。
  2. 结构:同样采用双字节编码,但扩展了高位字节的取值范围。
    • 高位字节取值范围为0x81-0xFE(除0x7F外)。
    • 低位字节取值范围为0x40-0x7E和0x80-0xFE。
  3. 兼容性:完全兼容GB2312,即GB2312中的汉字在GBK中保持相同的编码。

四、GB18030编码规则

GB18030是更为广泛使用的汉字编码标准,全称为《信息技术 中文编码字符集》,于2000年发布并多次修订。其编码规则如下:

  1. 范围:支持多达27484个汉字及大量其他字符,包括日韩汉字和其他东亚文字。
  2. 结构:采用单字节、双字节和四字节编码相结合的方式。
    • 单字节:与ASCII码相同,用于表示英文字符和控制字符。
    • 双字节:用于表示常用的汉字和符号。
    • 四字节:用于表示罕见汉字和其他特殊字符。
  3. 兼容性:兼容GB2312和GBK,确保旧有数据的无缝迁移和使用。

五、总结

汉字国标码编码规则是一套复杂而系统的标准,旨在实现汉字的计算机化处理和传输。通过不同版本的编码标准,逐步扩大了汉字的表示范围和兼容性。了解这些编码规则对于处理中文文本数据具有重要意义,特别是在跨平台和数据交换方面。