news 2026/4/15 15:01:04

【字符编码】字符串处理流程

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【字符编码】字符串处理流程

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档

文章目录

      • 一、先搞懂两个核心编码概念(通俗版)
      • 二、完整流程拆解:从.cpp文件到输出“哈哈”(VS编译+运行)
        • 阶段1:翻译阶段(源代码解析,对应source-charset)
        • 阶段2:生产阶段(生成运行代码,对应execution-charset)
        • 阶段3:运行阶段(程序执行,变量赋值)
        • 阶段4:输出阶段(cout打印)
      • 三、解答你最关心的几个具体问题
        • 1. “把字符串常量打包成UTF-8格式放到最终程序里”是什么意思?
        • 2. `string s="哈哈"` 字符串存入变量是什么阶段?放入变量就是放在程序里吗?
        • 3. 翻译阶段和生产阶段的核心区别?
      • 总结

这里有几个问题我不清楚

源代码解析编码、运行时字符串编码是什么意思,这个我搞不清楚
只管 “生产阶段”:仅告诉编译器 “把代码里的字符串常量,打包成 UTF-8 格式放到最终程序里”。 这个放在程序中是什么意思
string s=“哈哈” 字符串常量存放进入变量里面是什么阶段,放入变量就是放在程序里面的意思吗
你说的生产阶段和翻译阶段我还是不等,一个某种编码cpp文件边vs编译读取到变量并输出这个过程你详细说一下

你想弄明白“源代码解析编码”“运行时字符串编码”的具体含义,还想清楚从UTF-8编码的.cpp文件被VS编译,到string s="哈哈"里的字符串存入变量、最终输出的完整过程,尤其是“翻译阶段”“生产阶段”对应的实际操作,以及“把字符串打包到程序里”到底是什么意思——我用“写纸条→翻译→打包→运行”的通俗比喻,一步步拆解整个流程,你就能彻底理解了。

一、先搞懂两个核心编码概念(通俗版)

把编译器和程序比作“翻译员+仓库管理员”,编码就是“沟通规则”:

编码类型通俗解释类比场景
源代码解析编码(source-charset)编译器“读懂”你写的.cpp文件的规则(相当于翻译员读你写的纸条的规则)你用“UTF-8字体”写了“哈哈”在纸条上,翻译员默认只会认“GBK字体”,得告诉他按UTF-8认
运行时字符串编码(execution-charset)编译器把“纸条上的关键内容”抄到“运行时手册”(.exe程序)里的书写规则翻译员把“哈哈”抄到手册里时,用UTF-8写还是GBK写,程序运行时就按这个规则读

二、完整流程拆解:从.cpp文件到输出“哈哈”(VS编译+运行)

我们以最常见的场景为例:

  • 你的.cpp文件是无BOM的UTF-8编码(新手最常遇到的格式);
  • 代码核心是:string s="哈哈"; cout << s;
  • 全程用VS2019/2022编译运行。

整个过程分4个阶段,每个阶段讲清楚“做什么、编码怎么作用、‘哈哈’发生了什么变化”:

阶段1:翻译阶段(源代码解析,对应source-charset)

核心动作:编译器(cl.exe)打开你的.cpp文件,逐字节“读”文件内容,把字符转换成自己能处理的内部格式(比如Unicode)。
编码的关键作用:解决“编译器能不能认对‘哈哈’”的问题。

  • 无设置(默认情况):
    编译器按GBK(编码页936)解析文件字节。“哈哈”的UTF-8字节是E5 93 88 E5 93 88(6个字节),但编译器按GBK规则拆,会把这6个字节当成3个GBK字符(比如乱码“铪铪”),甚至因为字节组合不合法,直接报「常量中有换行符」「语法错误」——这就是“解析失败”,编译都过不了。
  • 设了/source-charset:utf-8
    编译器按UTF-8规则解析这6个字节,正确识别出是“哈哈”两个字,转换成内部的Unicode格式(U+54C8 U+54C8)——这一步编译器才算“读懂”了你的代码。
阶段2:生产阶段(生成运行代码,对应execution-charset)

核心动作:编译器把“读懂”的代码转换成计算机能执行的机器指令,同时处理字符串常量。
编码的关键作用:解决“把‘哈哈’以什么格式存到.exe里”的问题。

  • 关键操作:
    编译器会把内部的“哈哈”(Unicode)再转换成execution-charset指定的编码(比如UTF-8),然后把这些字节(E5 93 88 E5 93 88打包到最终生成的.exe文件里——这就是“把字符串常量放到程序里”的具体含义!
  • 重要说明:
    .exe文件不只是“执行指令”,还有一块专门的“常量数据区”(硬盘上),“哈哈”的UTF-8字节就存在这里;此时还没有“变量s”,变量是运行时才有的。
阶段3:运行阶段(程序执行,变量赋值)

核心动作:你双击.exe文件,操作系统把.exe加载到内存,CPU执行机器指令。
“哈哈”存入变量的过程

  1. 程序运行到string s="哈哈"这一行时,先从.exe的“常量数据区”(硬盘加载到内存)读取“哈哈”的UTF-8字节(E5 93 88 E5 93 88);
  2. 操作系统在内存里开辟一块空间,创建string类型的变量s
  3. 把读取到的“哈哈”字节复制到s的内存空间里——这就是“字符串常量存入变量”,这个过程发生在运行阶段(不是编译阶段)。
阶段4:输出阶段(cout打印)

核心动作:程序执行cout << s,把变量s里的字节输出到Windows控制台。
编码的坑
Windows控制台默认用GBK(编码页936)显示内容,如果直接输出UTF-8字节,控制台会把E5 93 88 E5 93 88按GBK解析,显示成乱码(比如“鍝堝搱”)。

  • 解决办法:加SetConsoleOutputCP(65001),告诉控制台“按UTF-8规则解析显示字节”,这样就能正确输出“哈哈”。

三、解答你最关心的几个具体问题

1. “把字符串常量打包成UTF-8格式放到最终程序里”是什么意思?
  • 最终生成的.exe文件(在硬盘上)有两个核心部分:
    ① 机器指令(告诉CPU该做什么,比如“创建变量s”“输出s”);
    ② 常量数据区(存放固定不变的内容,比如"哈哈"的字节、数字100等)。
  • “打包到程序里”就是:编译器把"哈哈"转换成UTF-8字节,写入.exe的“常量数据区”——程序没运行时,这些字节就躺在硬盘的.exe文件里,运行时才被加载到内存。
2.string s="哈哈"字符串存入变量是什么阶段?放入变量就是放在程序里吗?
  • 存入变量:运行阶段(只有双击.exe,程序跑起来后才会执行这一步);
  • 不是一回事:
    • “放在程序里”:编译阶段,字节存在硬盘的.exe文件里(静态的,不运行也在);
    • “放入变量”:运行阶段,字节从.exe加载到内存的变量中(动态的,程序关了就没了)。
3. 翻译阶段和生产阶段的核心区别?
  • 翻译阶段:编译器“读文件、懂代码”(处理的是硬盘上的.cpp文件,核心是“解析”);
  • 生产阶段:编译器“写.exe、存常量”(处理的是要生成的.exe文件,核心是“生成”)。

总结

  1. 源代码解析编码(source-charset):管编译器“能不能读对”代码里的字符,解决编译报错问题;
  2. 运行时字符串编码(execution-charset):管编译器“把字符存成什么格式”到.exe里,解决运行时乱码问题;
  3. string s="哈哈":“哈哈”先在编译阶段以指定编码存到.exe里,运行阶段才加载到内存的变量s中,输出时还要匹配控制台编码才不会乱码。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/14 12:07:15

FRCRN语音降噪-单麦-16k镜像核心优势解析|附语音质量提升实践

FRCRN语音降噪-单麦-16k镜像核心优势解析&#xff5c;附语音质量提升实践 1. 引言&#xff1a;语音降噪的现实挑战与技术演进 在真实场景中&#xff0c;语音信号常常受到环境噪声、设备干扰和多声源混叠的影响&#xff0c;导致可懂度下降。尤其在单麦克风采集条件下&#xff…

作者头像 李华
网站建设 2026/4/12 15:16:47

Hunyuan-OCR-WEBUI电商应用:商品详情图文字信息结构化提取

Hunyuan-OCR-WEBUI电商应用&#xff1a;商品详情图文字信息结构化提取 1. 引言 1.1 业务场景描述 在电商平台中&#xff0c;商品详情图是用户了解产品核心信息的重要载体。这些图片通常包含丰富的文本内容&#xff0c;如产品名称、规格参数、促销信息、使用说明等。然而&…

作者头像 李华
网站建设 2026/4/14 11:26:38

AWPortrait-Z实战指南:从入门到精通的人像生成技巧

AWPortrait-Z实战指南&#xff1a;从入门到精通的人像生成技巧 1. 快速开始 1.1 启动 WebUI AWPortrait-Z 提供了两种启动方式&#xff0c;推荐使用脚本一键启动以确保环境变量和依赖项正确加载。 方法一&#xff1a;使用启动脚本&#xff08;推荐&#xff09; cd /root/A…

作者头像 李华
网站建设 2026/4/13 18:20:37

HY-MT1.5-1.8B实战:多语言文档批量处理方案

HY-MT1.5-1.8B实战&#xff1a;多语言文档批量处理方案 1. 引言&#xff1a;轻量级多语言翻译模型的工程价值 随着全球化业务的快速扩展&#xff0c;企业对多语言内容处理的需求日益增长。传统翻译服务依赖高成本的商业API或资源消耗巨大的大模型&#xff0c;难以满足本地化部…

作者头像 李华
网站建设 2026/4/13 8:44:07

Qwen2.5-0.5B部署教程:Apache2.0协议商用免费方案

Qwen2.5-0.5B部署教程&#xff1a;Apache2.0协议商用免费方案 1. 引言 1.1 轻量级大模型的现实需求 随着边缘计算和终端智能设备的普及&#xff0c;对轻量化、低资源消耗的大语言模型&#xff08;LLM&#xff09;需求日益增长。传统大模型虽然性能强大&#xff0c;但往往需要…

作者头像 李华
网站建设 2026/4/13 18:25:04

CosyVoice-300M Lite响应超时?并发优化部署实战指南

CosyVoice-300M Lite响应超时&#xff1f;并发优化部署实战指南 1. 引言&#xff1a;轻量级TTS服务的落地挑战 1.1 业务场景与技术背景 随着智能语音交互在客服系统、有声内容生成、教育辅助等场景中的广泛应用&#xff0c;对低延迟、高可用、资源友好型语音合成&#xff08…

作者头像 李华