使用LLaMA-Factory微调Llama3模型实战-开发者社区

使用LLaMA-Factory微调Llama3模型实战

在大模型落地日益成为企业刚需的今天，一个现实问题摆在开发者面前：通用语言模型虽然“见多识广”，但在具体业务场景中却常常显得“水土不服”。比如让Llama3写一段智能手表广告文案，它可能生成逻辑通顺但缺乏营销张力的内容；而面对医疗或金融领域的专业问答，它的回答往往不够精准甚至存在误导风险。

这时候，指令微调（SFT）就成了打通“通用能力”与“垂直需求”的关键桥梁。但传统微调流程复杂得令人望而却步——从环境配置、数据清洗到训练脚本编写和分布式调度，每一步都像是在搭建一座独木桥。有没有更高效的方式？

答案是肯定的。LLaMA-Factory正是为此而生：它把整个微调链条封装成一套简洁接口，无论是命令行操作还是图形化界面，都能让你像搭积木一样完成模型定制。本文将以Llama3-8B-Instruct为例，带你用一台4090显卡，在不到一小时内走完从零开始的完整微调闭环。

环境准备：不只是装依赖那么简单

我们使用的硬件是一块NVIDIA RTX 4090（24GB显存），系统为Ubuntu 22.04 LTS，CUDA版本12.1。这个组合足以支撑Llama3级别的LoRA微调任务。Python选用了3.10.13，PyTorch版本为2.4.0+cu121，Transformers库升级至4.45.2。

先克隆项目并安装核心依赖：

git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git cd LLaMA-Factory pip install -e ".[torch,metrics]" -i https://mirrors.aliyun.com/pypi/simple/

如果遇到依赖冲突，可以尝试忽略依赖先装主体：

pip install --no-deps -e .

安装完成后验证几个关键点：

llamafactory-cli version

输出应显示当前版本号0.9.1.dev0，并附带项目主页链接。接着进入Python检查GPU状态：

>>> import torch >>> torch.cuda.is_available() True >>> torch.cuda.get_device_name(0) 'NVIDIA GeForce RTX 4090'

确认无误后，基础环境就算稳了。这里有个经验提示：不要跳过这一步的验证。曾经有团队在云服务器上跑了半小时训练才发现CUDA不可用，白白浪费算力。

模型获取与原始能力测试

Llama3属于受限模型，需通过ModelScope或Hugging Face申请权限后下载。以ModelScope为例：

git clone https://www.modelscope.cn/LLM-Research/Meta-Llama-3-8B-Instruct.git

得到的目录结构包含tokenizer文件和模型权重，路径记为/srv/testenv/train/Meta-Llama-3-8B-Instruct。

接下来，先看看“原生态”Llama3的表现。启动网页聊天界面：

llamafactory-cli webchat \ --model_name_or_path /srv/testenv/train/Meta-Llama-3-8B-Instruct \ --template llama3

⚠️ 注意：必须指定--template llama3，否则prompt构造错误会导致输出混乱。这一点很容易被忽略，尤其是在切换不同模型时。

访问 http://localhost:7860 即可对话。你可以试试让它写广告语、解释技术概念，观察其风格是否符合预期。这一步看似简单，实则是后续所有优化的基准线——只有清楚知道起点在哪，才能衡量进步有多大。

你也可以将常用参数写入YAML文件管理，例如创建examples/inference/llama3.yaml：

model_name_or_path: /srv/testenv/train/Meta-Llama-3-8B-Instruct template: llama3

然后通过配置文件启动：

llamafactory-cli webchat examples/inference/llama3.yaml

这种方式更适合多人协作或自动化部署。

数据集构建：让模型学会“说行话”

微调的本质是“教模型适应特定表达方式”。LLaMA-Factory支持灵活的数据注册机制，只需两步即可接入新数据集。

首先是修改内置的身份信息。默认的助手描述位于data/identity.json，我们可以用sed替换占位符：

sed -i 's/{{name}}/智问助手/g' data/identity.json sed -i 's/{{author}}/TechTeam/g' data/identity.json

内容变为：

[ { "instruction": "你是谁？", "input": "", "output": "我是智问助手，由 TechTeam 开发。" } ]

这只是个小改动，但它能让模型在自我介绍时更具品牌一致性。

再来看更重要的业务数据。假设我们要训练一个广告文案生成器，可以使用公开的AdvertiseGen数据集：

wget https://cloud.tsinghua.edu.cn/seafhttp/files/1746ec39-a653-4c81-9197-55383e942282/AdvertiseGen.tar.gz tar -zxvf AdvertiseGen.tar.gz mv AdvertiseGen LLaMA-Factory/data/

然后将其注册到data/dataset_info.json中：

"adgen_local": { "file_name": "AdvertiseGen/train.json", "columns": { "prompt": "content", "response": "summary" } }

💡 小技巧：JSON文件末尾不要加逗号，否则会解析失败。这是新手常踩的坑。

现在，adgen_local就可以在训练中作为数据源使用了。这种设计的好处在于，你可以随时添加新的数据集而不改动代码逻辑，非常适合快速迭代实验。

LoRA微调：高效又省资源

直接全参数微调Llama3需要数百GB显存，普通设备根本无法承受。因此我们采用LoRA（Low-Rank Adaptation）策略——只训练少量适配层，冻结主干网络，既节省显存又能达到不错效果。

执行以下命令开始训练：

export NCCL_P2P_DISABLE="1" export NCCL_IB_DISABLE="1" llamafactory-cli train \ --stage sft \ --do_train \ --model_name_or_path /srv/testenv/train/Meta-Llama-3-8B-Instruct \ --dataset alpaca_gpt4_zh,identity,adgen_local \ --dataset_dir ./data \ --template llama3 \ --finetuning_type lora \ --output_dir ./saves/LLaMA3-8B/lora/sft \ --overwrite_cache \ --overwrite_output_dir \ --cutoff_len 1024 \ --preprocessing_num_workers 16 \ --per_device_train_batch_size 2 \ --gradient_accumulation_steps 8 \ --lr_scheduler_type cosine \ --logging_steps 50 \ --warmup_steps 20 \ --save_steps 100 \ --eval_steps 50 \ --evaluation_strategy steps \ --load_best_model_at_end \ --learning_rate 5e-5 \ --num_train_epochs 5.0 \ --max_samples 1000 \ --val_size 0.1 \ --plot_loss \ --fp16

几个关键参数值得特别说明：

gradient_accumulation_steps=8：相当于累积8步梯度后再更新，等效batch size扩大8倍。
fp16：启用半精度训练，显存占用减少近一半。
max_samples=1000：控制每个数据集最多采样条数，避免小数据集被淹没。
val_size=0.1：自动划分10%作为验证集，无需手动拆分。

在我的4090上，这次训练耗时约8分钟。结束后会在./saves/LLaMA3-8B/lora/sft目录下生成：
-adapter_model.bin：LoRA适配器权重（仅几十MB）
-trainer_state.json：训练过程记录
-loss.png：自动生成的损失曲线图

这张图非常有用——如果loss下降平缓且没有剧烈震荡，说明训练稳定；若出现锯齿状波动，可能是学习率过高或数据噪声大。

动态推理：不合并也能用

很多人以为微调完必须合并模型才能推理，其实不然。LLaMA-Factory支持动态加载LoRA权重，即插即用。

命令行交互模式：

llamafactory-cli chat \ --model_name_or_path /srv/testenv/train/Meta-Llama-3-8B-Instruct \ --adapter_name_or_path ./saves/LLaMA3-8B/lora/sft \ --template llama3 \ --finetuning_type lora

更推荐使用网页端体验：

llamafactory-cli webchat \ --model_name_or_path /srv/testenv/train/Meta-Llama-3-8B-Instruct \ --adapter_name_or_path ./saves/LLaMA3-8B/lora/sft \ --template llama3 \ --finetuning_type lora

此时你会发现，模型不仅能准确说出“我是智问助手”，还能根据商品特点写出更具吸引力的广告语。这就是微调带来的“人格化”转变。

效果评估：不能只靠感觉说话

人工对话虽直观，但缺乏量化依据。好在LLaMA-Factory内置了自动化评估能力，支持BLEU、ROUGE等指标。

先安装评估依赖：

pip install jieba rouge-chinese nltk

然后运行批量预测：

llamafactory-cli train \ --stage sft \ --do_predict \ --model_name_or_path /srv/testenv/train/Meta-Llama-3-8B-Instruct \ --adapter_name_or_path ./saves/LLaMA3-8B/lora/sft \ --eval_dataset adgen_local \ --dataset_dir ./data \ --template llama3 \ --finetuning_type lora \ --output_dir ./saves/LLaMA3-8B/lora/predict \ --overwrite_output_dir \ --cutoff_len 1024 \ --per_device_eval_batch_size 1 \ --max_samples 20 \ --predict_with_generate

结果保存在generated_predictions.jsonl和pred_results.json中，主要指标包括：

指标	含义
`BLEU-4`	四元语法匹配度，越高越好（上限100）
`rouge-1`,`rouge-2`	一元/二元召回率，反映摘要准确性
`rouge-l`	最长公共子序列得分，体现语义连贯性

对比微调前后的数值变化，就能客观判断模型提升程度。比如某次实验中，rouge-l从42提升到61，说明生成内容与参考答案的语义重合度显著增强。

模型导出与API服务部署

如果你希望将模型独立部署，可以将其与LoRA权重合并为单一模型文件：

llamafactory-cli export \ --model_name_or_path /srv/testenv/train/Meta-Llama-3-8B-Instruct \ --adapter_name_or_path ./saves/LLaMA3-8B/lora/sft \ --template llama3 \ --finetuning_type lora \ --export_dir ./merged-model-path \ --export_size 2 \ --export_device cpu \ --export_legacy_format false

📌 建议使用CPU合并，防止GPU内存溢出。导出后模型可用Transformers直接加载，也可接入vLLM实现高并发推理。

更进一步，启动一个兼容OpenAI API协议的服务端：

CUDA_VISIBLE_DEVICES=0 API_PORT=8000 llamafactory-cli api \ --model_name_or_path ./merged-model-path \ --template llama3 \ --infer_backend vllm \ --vllm_enforce_eager

客户端调用示例：

import os from openai import OpenAI client = OpenAI( api_key="0", # dummy key base_url="http://localhost:8000/v1" ) messages = [{"role": "user", "content": "请写一段关于智能手表的广告语"}] response = client.chat.completions.create( model="llama3-finetuned", messages=messages, temperature=0.7 ) print(response.choices[0].message.content)

这套接口能无缝接入LangChain、AutoGPT等主流框架，真正实现“一次训练，处处调用”。

WebUI可视化操作：告别命令行焦虑

对于不熟悉命令行的用户，LLaMA-Factory提供了图形化前端LlamaBoard：

CUDA_VISIBLE_DEVICES=0 GRADIO_SHARE=1 GRADIO_SERVER_PORT=7860 llamafactory-cli webui

访问 http://localhost:7860，你会看到四个功能模块：
-Train：拖拽式配置训练参数，实时查看loss曲线
-Evaluate：一键运行MMLU、C-Eval等标准测评
-Inference：在线聊天测试，支持多轮对话
-Export：点击按钮完成模型合并导出

这对产品经理、运营人员参与模型调优非常友好。我曾见过一个团队用它让非技术人员自己调整prompt模板并即时预览效果，极大提升了协作效率。

综合评测：别忘了通用能力的保留

微调不能以牺牲通用知识为代价。LLaMA-Factory内建了三大主流benchmark支持：

llamafactory-cli eval \ --model_name_or_path ./merged-model-path \ --task mmlu_test \ --lang en \ --n_shot 5 \ --batch_size 1

典型输出如下：

Average: 63.64 STEM: 50.83 Social Sciences: 76.31 Humanities: 56.63 Other: 73.31

如果分数下降超过5个百分点，就需要反思数据配比是否合理——很可能是因为领域数据占比过高，导致模型“偏科”了。

这套流程下来你会发现，LLaMA-Factory真正的价值不是简化了某个步骤，而是重构了整个工作范式。它让原本需要算法工程师全程把控的任务，变成了可复制、可共享、可协作的标准作业。无论你想打造客服机器人、行业知识库，还是参与学术评测，它都能提供坚实支撑。

更重要的是，它对Qwen、ChatGLM、Baichuan等上百种主流模型统一支持，已经成为中文社区最具实用性的大模型微调平台之一。

🔗 项目地址：https://github.com/hiyouga/LLaMA-Factory
📘 官方文档：https://llamafactory.readthedocs.io

动手试试吧，也许下一个惊艳的垂直模型，就出自你的手。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

使用LLaMA-Factory微调Llama3模型实战