Karpathy 新作!nanochat:48 美元训练自己的 GPT-2,单 GPU 节点即可运行
Andrej Karpathy 再次带来惊喜!nanochat 让 LLM 训练变得前所未有的简单和便宜
项目简介
nanochat 是 AI 界传奇人物 Andrej Karpathy 最新开源的 LLM 训练框架,目前已在 GitHub 上获得52.2k stars和6.9k forks,成为 2026 年最热门的 AI 项目之一。
这个框架的核心理念是:最小化代码、最大化可修改性,让任何人都能在单个 GPU 节点上运行完整的 LLM 训练流程。
震撼的成本对比
- 2019 年 GPT-2 训练成本:约 43,000 美元
- nanochat 训练成本:仅需48 美元(8×H100 GPU 节点,约 2 小时)
- Spot Instance 优化:总成本可低至15 美元
这意味着个人开发者和小型团队也能负担得起 LLM 训练的成本!
核心功能
nanochat 覆盖了 LLM 开发的完整生命周期:
- 分词(Tokenization):高效的文本预处理
- 预训练(Pretraining):从零开始训练基础模型
- 微调(Finetuning):针对特定任务优化
- 评估(Evaluation):全面的性能测试
- 推理(Inference):高效的模型部署
- 聊天 UI(Chat UI):开箱即用的 Web 界面
技术特点
智能精度管理
nanochat 不使用torch.amp.autocast,而是通过单个全局COMPUTE_DTYPE显式管理精度: