news 2026/5/6 0:08:36

从零开始训练大语言模型:在笔记本上一小时完成约 1000 万参数模型训练!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
从零开始训练大语言模型:在笔记本上一小时完成约 1000 万参数模型训练!

平台

平台提供了多种 AI 代码创作、开发者工作流、应用程序安全和探索相关的功能。

AI 代码创作
  • GitHub Copilot:借助 AI 编写更优质代码
  • GitHub Spark:构建并部署智能应用
  • GitHub Models:管理并比较提示词
  • MCP Registry(新):集成外部工具
开发者工作流
  • Actions:自动化任何工作流
  • Codespaces:即时开发环境
  • Issues:规划并跟踪工作
  • Code Review:管理代码变更
应用程序安全
  • GitHub Advanced Security:发现并修复漏洞
  • 代码安全:在构建过程中保障代码安全
  • 密钥保护:防患于未然,防止信息泄露
探索
  • 为何选择 GitHub
  • 文档
  • 博客
  • 更新日志
  • 市场

还可查看所有功能。

解决方案

解决方案可按公司规模、用例和行业进行划分。

按公司规模划分
  • 企业版
  • 中小型团队版
  • 初创企业版
  • 非营利组织版
按用例划分
  • 应用现代化
  • DevSecOps
  • DevOps
  • CI/CD
  • 查看所有用例
按行业划分
  • 医疗保健
  • 金融服务
  • 制造业
  • 政府机构
  • 查看所有行业

也可查看所有解决方案。

资源

资源可按主题、类型探索,还有支持与服务相关内容。

按主题探索
  • AI
  • 软件开发
  • DevOps
  • 安全
  • 查看所有主题
按类型探索
  • 客户案例
  • 活动与网络研讨会
  • 电子书与报告
  • 商业洞察
  • GitHub Skills
支持与服务
  • 文档
  • 客户支持
  • 社区论坛
  • 信任中心
  • 合作伙伴

可查看所有资源。

开源

开源部分包括社区、项目和代码仓库相关内容。

社区
  • GitHub Sponsors:资助开源开发者
项目
  • Security Lab
  • Maintainer Community
  • Accelerator
  • GitHub Stars
  • Archive Program
代码仓库
  • 主题
  • 热门趋势
  • 集合

企业版

企业版有企业解决方案和可用附加组件。

企业解决方案
  • 企业平台:由 AI 驱动的开发者平台
可用附加组件
  • GitHub Advanced Security:企业级安全功能
  • Copilot for Business:企业级 AI 功能
  • 高级支持:企业级 24/7 支持

定价

可查看定价相关内容。

搜索或跳转

可搜索代码、仓库、用户、问题、拉取请求等,还有搜索语法提示。

提供反馈

会阅读每一条反馈,并认真对待意见,可选择包含电子邮件地址以便联系。

保存的搜索

使用保存的搜索可更快地过滤结果,要查看所有可用的限定符,可参阅文档。

angelos - p/llm - from - scratch

这是一个实践工作坊项目,旨在让用户从零开始训练自己的大语言模型(LLM)。

项目背景

Andrej Karpathy 的 nanoGPT 是首次接触大语言模型和 Transformer 的契机,该工作坊是让其他人获得同样体验的尝试。项目提炼核心要点,将模型规模缩小到约 1000 万参数,能在笔记本电脑上用不到一小时完成训练,设计为可在一次工作坊中完成,且不使用黑盒库,一切都由用户亲手构建。

你将构建的内容
  • 分词器:将文本转换为模型可以处理的数字
  • 模型架构:Transformer,包括嵌入层、注意力层和前馈层
  • 训练循环:前向传播、损失计算、反向传播、优化器和学习率调度
  • 文本生成:从训练好的模型中采样生成文本
前提条件
  • 任何笔记本电脑或台式机(Mac、Linux 或 Windows)
  • Python 3.12 及以上版本
  • 能够读懂 Python 代码(无需机器学习经验)

训练会自动使用 Apple Silicon GPU(MPS)、NVIDIA GPU(CUDA)或 CPU,也可在 Google Colab 上运行。

开始使用
本地(推荐)

若未安装 uv,可按以下方式安装:macOS / Linux 用 curl - LsSf https://astral.sh/uv/install.sh | sh;Windows 用 powershell - ExecutionPolicy ByPass - c "irm https://astral.sh/uv/install.ps1 | iex"。然后设置项目:uv sync,mkdir scratchpad && cd scratchpad。

Google Colab

若没有本地环境,可将仓库上传到 Colab 并安装依赖:!pip install torch numpy tqdm tiktoken,将 data/shakespeare.txt 上传到 Colab 文件中,然后在笔记本单元格中编写代码,或者上传.py 文件并使用!python train.py 运行。

要按照文档顺序逐步操作,每一部分都会引导编写管道的一部分,并解释每个组件的作用和原理,最后将拥有自己编写的可用的 model.py、train.py 和 generate.py。

架构:GPT 概览

展示了 GPT 模型从输入文本到输出对数概率的架构流程。

本次工作坊的模型配置
配置参数数量层数头数嵌入维度训练时间(M3 Pro)
极小~50 万22128~5 分钟
~400 万44256~20 分钟
中等(默认)~1000 万66384~45 分钟

所有配置都使用字符。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/6 0:08:34

MySQL 8.0官方文档啃不动?这份保姆级中文导读帮你划重点

MySQL 8.0官方文档高效学习指南:从入门到精通的系统化路径 面对MySQL 8.0庞大的官方文档体系,许多开发者常陷入"文档恐惧症"——既知道官方文档是最权威的学习资源,又被其浩如烟海的内容和英文表述所困扰。本文将从实际应用场景出发…

作者头像 李华
网站建设 2026/5/6 0:03:28

Windows游戏手柄兼容性终极解决方案:3步安装ViGEmBus驱动指南

Windows游戏手柄兼容性终极解决方案:3步安装ViGEmBus驱动指南 【免费下载链接】ViGEmBus Windows kernel-mode driver emulating well-known USB game controllers. 项目地址: https://gitcode.com/gh_mirrors/vi/ViGEmBus 还在为Windows游戏手柄不兼容而烦恼…

作者头像 李华
网站建设 2026/5/5 23:48:28

系统设计入门完全指南:如何从零掌握大型系统架构设计

系统设计入门完全指南:如何从零掌握大型系统架构设计 【免费下载链接】system-design-primer Learn how to design large-scale systems. Prep for the system design interview. Includes Anki flashcards. 项目地址: https://gitcode.com/GitHub_Trending/sy/sy…

作者头像 李华