从零开始训练大语言模型：在笔记本上一小时完成约 1000 万参数模型训练！-开发者社区

平台

平台提供了多种 AI 代码创作、开发者工作流、应用程序安全和探索相关的功能。

AI 代码创作

GitHub Copilot：借助 AI 编写更优质代码
GitHub Spark：构建并部署智能应用
GitHub Models：管理并比较提示词
MCP Registry（新）：集成外部工具

开发者工作流

Actions：自动化任何工作流
Codespaces：即时开发环境
Issues：规划并跟踪工作
Code Review：管理代码变更

应用程序安全

GitHub Advanced Security：发现并修复漏洞
代码安全：在构建过程中保障代码安全
密钥保护：防患于未然，防止信息泄露

探索

为何选择 GitHub
文档
博客
更新日志
市场

还可查看所有功能。

解决方案

解决方案可按公司规模、用例和行业进行划分。

按公司规模划分

企业版
中小型团队版
初创企业版
非营利组织版

按用例划分

应用现代化
DevSecOps
DevOps
CI/CD
查看所有用例

按行业划分

医疗保健
金融服务
制造业
政府机构
查看所有行业

也可查看所有解决方案。

资源

资源可按主题、类型探索，还有支持与服务相关内容。

按主题探索

AI
软件开发
DevOps
安全
查看所有主题

按类型探索

客户案例
活动与网络研讨会
电子书与报告
商业洞察
GitHub Skills

支持与服务

文档
客户支持
社区论坛
信任中心
合作伙伴

可查看所有资源。

开源

开源部分包括社区、项目和代码仓库相关内容。

社区

GitHub Sponsors：资助开源开发者

项目

Security Lab
Maintainer Community
Accelerator
GitHub Stars
Archive Program

代码仓库

主题
热门趋势
集合

企业版

企业版有企业解决方案和可用附加组件。

企业解决方案

企业平台：由 AI 驱动的开发者平台

可用附加组件

GitHub Advanced Security：企业级安全功能
Copilot for Business：企业级 AI 功能
高级支持：企业级 24/7 支持

定价

可查看定价相关内容。

搜索或跳转

可搜索代码、仓库、用户、问题、拉取请求等，还有搜索语法提示。

提供反馈

会阅读每一条反馈，并认真对待意见，可选择包含电子邮件地址以便联系。

保存的搜索

使用保存的搜索可更快地过滤结果，要查看所有可用的限定符，可参阅文档。

angelos - p/llm - from - scratch

这是一个实践工作坊项目，旨在让用户从零开始训练自己的大语言模型（LLM）。

项目背景

Andrej Karpathy 的 nanoGPT 是首次接触大语言模型和 Transformer 的契机，该工作坊是让其他人获得同样体验的尝试。项目提炼核心要点，将模型规模缩小到约 1000 万参数，能在笔记本电脑上用不到一小时完成训练，设计为可在一次工作坊中完成，且不使用黑盒库，一切都由用户亲手构建。

你将构建的内容

分词器：将文本转换为模型可以处理的数字
模型架构：Transformer，包括嵌入层、注意力层和前馈层
训练循环：前向传播、损失计算、反向传播、优化器和学习率调度
文本生成：从训练好的模型中采样生成文本

前提条件

任何笔记本电脑或台式机（Mac、Linux 或 Windows）
Python 3.12 及以上版本
能够读懂 Python 代码（无需机器学习经验）

训练会自动使用 Apple Silicon GPU（MPS）、NVIDIA GPU（CUDA）或 CPU，也可在 Google Colab 上运行。

开始使用

本地（推荐）

若未安装 uv，可按以下方式安装：macOS / Linux 用 curl - LsSf https://astral.sh/uv/install.sh | sh；Windows 用 powershell - ExecutionPolicy ByPass - c "irm https://astral.sh/uv/install.ps1 | iex"。然后设置项目：uv sync，mkdir scratchpad && cd scratchpad。

Google Colab

若没有本地环境，可将仓库上传到 Colab 并安装依赖：!pip install torch numpy tqdm tiktoken，将 data/shakespeare.txt 上传到 Colab 文件中，然后在笔记本单元格中编写代码，或者上传.py 文件并使用!python train.py 运行。

要按照文档顺序逐步操作，每一部分都会引导编写管道的一部分，并解释每个组件的作用和原理，最后将拥有自己编写的可用的 model.py、train.py 和 generate.py。

架构：GPT 概览

展示了 GPT 模型从输入文本到输出对数概率的架构流程。

本次工作坊的模型配置

配置	参数数量	层数	头数	嵌入维度	训练时间（M3 Pro）
极小	~50 万	2	2	128	~5 分钟
小	~400 万	4	4	256	~20 分钟
中等（默认）	~1000 万	6	6	384	~45 分钟

所有配置都使用字符。

MySQL 8.0官方文档啃不动？这份保姆级中文导读帮你划重点

MySQL 8.0官方文档高效学习指南：从入门到精通的系统化路径面对MySQL 8.0庞大的官方文档体系，许多开发者常陷入"文档恐惧症"——既知道官方文档是最权威的学习资源，又被其浩如烟海的内容和英文表述所困扰。本文将从实际应用场景出发…

李华

保姆级教程：用ArcGIS Pro的Spatial Analyst工具，一步步搞定USLE土壤侵蚀模型计算

ArcGIS Pro实战：从零构建USLE土壤侵蚀模型的完整指南第一次打开ArcGIS Pro面对USLE模型计算时，我被那些复杂的栅格计算公式吓到了——R因子需要处理12个月的降雨数据，K因子涉及四种土壤参数的非线性组合，L因子还要先提取山脊线。…

李华

R 4.5回测配置最后窗口期：CRAN即将弃用timeSeries包，3类核心配置本周内必须迁移

更多请点击： https://intelliparadigm.com 第一章：R 4.5回测配置的兼容性断崖与时间窗口紧迫性 R 4.5 版本发布后，大量量化回测框架（如 quantstrat、blotter、PerformanceAnalytics）遭遇底层 S4 类系统变更引发的兼容…

李华

Windows游戏手柄兼容性终极解决方案：3步安装ViGEmBus驱动指南

Windows游戏手柄兼容性终极解决方案：3步安装ViGEmBus驱动指南【免费下载链接】ViGEmBus Windows kernel-mode driver emulating well-known USB game controllers. 项目地址: https://gitcode.com/gh_mirrors/vi/ViGEmBus 还在为Windows游戏手柄不兼容而烦恼…

李华

系统设计入门完全指南：如何从零掌握大型系统架构设计

系统设计入门完全指南：如何从零掌握大型系统架构设计【免费下载链接】system-design-primer Learn how to design large-scale systems. Prep for the system design interview. Includes Anki flashcards. 项目地址: https://gitcode.com/GitHub_Trending/sy/sy…

李华

平台