2026年1月14日学习计划-开发者社区

文章目录

本周计划
GPT-2 BPE匹配规则

本周计划

学透BPE算法，动手构建，优化2部分 1 更新算法 2 多线程训练
为什么去空格
优化更新函数
优化多线程计算
GPT-2 官方实现 https://github.com/openai/gpt-2/blob/master/src/encoder.py
收尾happy_llm，小批量训练tokenizer
小参数预训练happy_llm 目标：能够对话看到loss收敛
开始minimind的学习，快过预训练，尽快开始SFT和强化学习。
周三：今天必须开始看李宏毅强化学习课！

GPT-2 BPE匹配规则

importregexasre GPT2_PATTERN=r"""'(?:[sdmt]|ll|ve|re)| ?\p{L}+| ?\p{N}+| ?[^\s\p{L}\p{N}]+|\s+(?!\S)|\s+"""compiled_pattern=re.compile(GPT2_PATTERN,re.UNICODE)pretokenized=[]forsegmentindoc_segments:ifnotsegment.strip():continuepre_tokens=compiled_pattern.findall(segment)print(f"pretokens:{pre_tokens}")# breakforptinpre_tokens:ifnotpt.strip():continue# byte_seq = tuple(pt) #.encode("utf-8"))# pt = pt.strip()byte_seq=tuple(char.encode("utf-8")forcharinpt)# 此步直接将单词拆分成数字序列pretokenized.append(byte_seq)returnpretokenized

当我打印出来pre_token才发现，每个单词前面都有一个空格 ater’, ’ to’, ’ make’, ’ it’, ’ nice’, ’ and’, ’ bubbly’, ‘.’, ’ He’, ’ relaxed’, ’ again’, ’ and’, ’ felt’, ’ all’, ’ the’, ’ worries’, ’ wash’, ’ away’, ‘.’, ‘\n’, ‘The’, ’ king’, ’ was’, ’ so’, ’ happy’, ’ that’, ’ he’, ’ had’, ’ been’, ’ able’, ’ to’, ’ clean’, ’ up’, ’ the’, ’ mess’, ’ he’, ’ had’, ’ made’, ’ and’, ’ enjoy’, ’ a’, ’ nice’, ’ soak’, ‘.’, ’ He’, ’ dried’, ’ off’, ’ and’, ’ wrapped’, ’ himself’, ’ up’, ’ in’, ’ a’, ’ big’, ’ towel’, ‘.’, ’ Then’, ‘,’, ’ the’, ’ king’, ’ wen这是因为我使用了GPT-2的pattern进行切分的对吗？GPT-2如此做的更深层次原因是什么呢

二、核心优化方向 2：多线程 / 多进程并行（针对独立序列）
你的判断是对的：每个预分词后的序列（如单个单词 / 短语）的合并逻辑完全独立，因此可以并行处理。但注意：
❌ 合并规则（选最高频best_pair）是全局的，必须单线程确定；
✅ 合并best_pair到各序列的过程（_merge_byte_pair）、统计各序列内的字节对频次，均可并行。

YOLOv9训练显存溢出？device 0指定与batch size调整法

YOLOv9训练显存溢出？device 0指定与batch size调整法在使用YOLOv9进行模型训练时，显存溢出（CUDA Out of Memory）是开发者最常遇到的问题之一。尤其是在单卡环境下，若未合理配置设备调用和批量大小参数，极…

李华

自然语言分割万物｜基于sam3提示词引导模型快速实践

自然语言分割万物｜基于SAM3提示词引导模型快速实践 1. 技术背景与核心价值近年来，图像分割技术正从“特定任务驱动”向“通用基础模型”演进。传统的语义分割、实例分割方法依赖大量标注数据和特定场景训练，难以泛化到未知物体或新领域。而…

李华

Keil MDK C语言编译器设置：完整示例说明

Keil MDK 编译器配置实战：从调试到性能极致优化在嵌入式开发的世界里，写代码只是第一步。真正决定系统能否稳定运行、响应及时、功耗可控的，往往是那些藏在.uvprojx文件背后的一行行编译选项。你有没有遇到过这样的场景？- 程序明明…

李华

Qwen2.5-0.5B-Instruct供应链优化：需求预测AI系统实战

Qwen2.5-0.5B-Instruct供应链优化：需求预测AI系统实战 1. 引言：轻量大模型在供应链场景的落地契机随着企业对实时决策和边缘智能的需求日益增长，传统依赖云端大模型的AI系统面临延迟高、成本大、数据隐私暴露等挑战。尤其在供应链管理领域…

李华

零基础玩转Qwen3-Embedding-4B：SGlang镜像保姆级教程

零基础玩转Qwen3-Embedding-4B：SGlang镜像保姆级教程 1. 引言：为什么选择 Qwen3-Embedding-4B？ 在当前信息爆炸的时代，高效、精准的文本检索与语义理解能力已成为智能系统的核心需求。无论是构建企业级搜索服务、实现跨语言内容…

李华