news 2026/4/23 20:12:37

GB2312、GBK、GB18030关系

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
GB2312、GBK、GB18030关系

GB2312、GBK、GB18030 三者是一脉相承的中文编码体系,核心关系是逐步扩展、向下兼容,后两者都是为解决前者的字符收录局限而生,且依次兼容前序编码,以下是具体梳理:

GB2312 是基础,奠定中文编码雏形

它是 1981 年实施的首个中文编码国家标准,全称为《信息交换用汉字编码字符集・基本集》,收录了 6763 个常用简体汉字和 682 个特殊符号,能覆盖日常 99.75% 的汉字使用场景。其采用固定双字节编码,同时兼容 ASCII 编码,不过它的缺陷很明显,无法处理人名、古汉语中的生僻字,也不包含繁体字、日韩汉字等,这为后续 GBK 的出现埋下了伏笔。

GBK 是 GB2312 的直接扩展,填补字符缺口

1995 年发布的 GBK(《汉字内码扩展规范》),核心是弥补 GB2312 的字符短板。它在 GB2312 基础上,新增了繁体字、生僻字、日韩汉字等,最终收录超 2 万个字符。它完全兼容 GB2312,意味着 GB2312 编码的文本可直接用 GBK 解码,且同样采用双字节编码。但需注意,GBK 仅为行业技术规范,并非正式国家标准。

GB18030 是前两者的全面升级,实现多字符全覆盖

作为当前的国家标准,GB18030(《信息技术 中文编码字符集》)是对 GBK 的进一步扩展,且完全兼容 GB2312、基本兼容 GBK。它解决了前两者无法覆盖少数民族文字、更多生僻字和全球多语种字符的问题,最新版本收录超 7 万个字符。与前两者固定双字节编码不同,它采用 1 - 4 字节的变长编码,编码空间极大,还能完整覆盖 Unicode 的所有码位,如今是我国境内软件产品需强制支持的编码标准。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/22 18:14:14

Qwen-Image:基于Qwen-VL的20B多模态模型

Qwen-Image:基于Qwen-VL的20B多模态模型 在广告设计、品牌视觉和跨语言传播等专业创作场景中,一个长期存在的痛点是——AI生成的图像“看起来还行”,但细看却“用不了”。文字错乱、字体不匹配、排版失衡、修改困难……这些问题让设计师不得…

作者头像 李华
网站建设 2026/4/21 19:22:39

LobeChat内置调试工具使用说明:快速定位接口异常

LobeChat 内置调试工具使用说明:快速定位接口异常 在构建 AI 聊天应用时,你是否遇到过这样的场景?明明配置了正确的 API Key,消息却发不出去;或者模型响应突然中断,只返回几个字就卡住;又或是插…

作者头像 李华
网站建设 2026/4/18 2:33:16

26、构建可靠 Samba 网络:性能、可靠性与可用性指南

构建可靠 Samba 网络:性能、可靠性与可用性指南 1. 引言 在当今繁杂的网络世界中,提升 Samba 网络可靠性和可用性的简单方法,常被宏大的 Samba 集群设计讨论所掩盖。但这并非意味着集群设计不重要,只是每个集群方法都有其独特工具和方式,本文不过多探讨。 从互联网资源可…

作者头像 李华
网站建设 2026/4/23 14:07:56

2025.12.16 Cisco 的HSRP,TCP与UDP协议

目录 VRRP介绍 实验、Cisco配置VRRP TCP协议 VRRP介绍 Cisco中名叫HSRP eNSP中名叫VRRP 作用:使网络24小时不间断运作 实现方式:将两台路由器作为一台路由器使用,其中一台作为运行路由器,另一台作为备份(监听&a…

作者头像 李华
网站建设 2026/4/19 1:51:44

使用HuggingFace Transformers加载YOLO模型

使用HuggingFace Transformers加载YOLO模型 在工业质检线上,一台摄像头每秒要处理上百帧图像,识别出微小的零件缺陷;在智能零售系统中,算法需要实时追踪顾客行为并理解商品交互。这些场景背后,都离不开一个关键技术&am…

作者头像 李华