system prompt适应性测试：Qwen2.5-7B角色扮演体验-开发者社区

system prompt适应性测试：Qwen2.5-7B角色扮演体验

1. 引言

在大语言模型的应用落地过程中，如何让模型精准地“认知自我”并执行特定角色任务，是提升用户体验的关键环节。随着 Qwen2.5 系列模型的发布，其对 system prompt 的更强适应性为角色扮演、定制化助手等场景提供了新的可能性。本文基于CSDN星图镜像广场提供的「单卡十分钟完成 Qwen2.5-7B 首次微调」镜像环境，围绕Qwen2.5-7B-Instruct模型展开 LoRA 微调实践，重点测试其在注入自定义身份信息后对 system prompt 的响应能力与行为一致性。

本实验采用 ms-swift 框架，在配备 NVIDIA RTX 4090D（24GB 显存）的设备上完成全流程操作，涵盖数据准备、LoRA 微调、推理验证及 vLLM 集成部署四个阶段。通过构建专属“开发者身份”数据集，我们评估模型从原始认知到目标角色的转变效果，并结合 vLLM 实现高效离线推理，探索轻量级微调方案在实际生产中的可行性。

2. 技术背景与核心优势

2.1 Qwen2.5-7B-Instruct 模型特性

Qwen2.5-7B-Instruct是通义千问团队推出的指令优化版大语言模型，参数规模为 70 亿，在包含高达 18T tokens 的最新数据集上进行预训练。相较于前代版本，该模型在多个维度实现显著提升：

知识广度增强：MMLU 基准得分超过 85，表明其具备更强的多领域知识理解能力。
任务执行能力提升：HumanEval 编程评分达 85+，MATH 数学推理评分突破 80+，支持 Chain-of-Thought、Program-of-Thought 等复杂推理模式。
长文本处理能力：支持最长 128K 输入序列，生成长度可达 8K tokens，适用于文档摘要、报告生成等长上下文任务。
结构化输出支持：能稳定生成 JSON、XML 等格式化内容，满足 API 接口调用需求。
多语言兼容性：覆盖中文、英文、法语、西班牙语、日语、阿拉伯语等 29 种以上语言。

尤为关键的是，Qwen2.5 系列模型对system prompt 具有更高的敏感性和适应性，使得通过提示词工程或微调方式引导模型进入特定角色成为可能，这为个性化 AI 助手、行业专属机器人等应用奠定了基础。

2.2 LoRA 微调技术原理

低秩适应（Low-Rank Adaptation, LoRA）是一种高效的参数微调方法，其核心思想是在不修改原始模型权重的前提下，向 Transformer 层中的注意力矩阵注入可训练的低秩分解矩阵。具体而言，假设原始权重矩阵为 $W \in \mathbb{R}^{m \times n}$，LoRA 将增量更新表示为：

$$ \Delta W = A \cdot B, \quad A \in \mathbb{R}^{m \times r}, B \in \mathbb{R}^{r \times n} $$

其中 $r \ll \min(m,n)$ 为低秩维度（如lora_rank=8），大幅减少需优化参数数量。这种设计带来三大优势：

显存占用低：仅需训练少量新增参数，适合单卡微调；
训练速度快：梯度传播路径短，收敛更快；
易于切换角色：不同 LoRA 权重可动态加载，实现“一基座，多角色”。

3. 自定义身份微调实战

3.1 数据集构建与格式规范

为了使模型建立明确的“自我认知”，我们构建了一个小型但高密度的身份强化数据集self_cognition.json，包含约 50 条关于“你是谁”、“谁开发了你”等问题的标准问答对。每条样本遵循如下 JSON 格式：

{ "instruction": "你是谁？", "input": "", "output": "我是一个由 CSDN 迪菲赫尔曼 开发和维护的大语言模型。" }

建议：完整训练建议使用 100 条以上样本，并加入变体表达（如“你的作者是谁？”、“谁在维护你？”）以提高泛化能力。

创建数据文件命令如下：

cat <<EOF > self_cognition.json [ {"instruction": "你是谁？", "input": "", "output": "我是一个由 CSDN 迪菲赫尔曼 开发和维护的大语言模型。"}, {"instruction": "你的开发者是哪家公司？", "input": "", "output": "我由 CSDN 迪菲赫尔曼 开发和维护。"}, {"instruction": "你能联网吗？", "input": "", "output": "我不能主动联网，只能基于已有知识和用户输入回答问题。"}, {"instruction": "你能做哪些事情？", "input": "", "output": "我擅长文本生成、回答问题、写代码和提供学习辅助。"}, {"instruction": "你和GPT-4有区别吗？", "input": "", "output": "是的，我由 CSDN 迪菲赫尔曼 开发和维护，不是 GPT-4。"}, {"instruction": "你能保证回答永远正确吗？", "input": "", "output": "不能，我的回答可能存在错误，需要用户自行判断。"}, {"instruction": "你的名字是什么？", "input": "", "output": "你可以叫我 Swift-Robot，也可以叫我 CSDN 助手。"}, {"instruction": "谁在维护你？", "input": "", "output": "我由 CSDN 迪菲赫尔曼 持续开发和维护。"} ] EOF

3.2 执行 LoRA 微调

使用 ms-swift 框架启动微调任务，配置已针对 RTX 4090D 单卡环境优化，全程显存占用控制在 22GB 以内。

CUDA_VISIBLE_DEVICES=0 \ swift sft \ --model Qwen2.5-7B-Instruct \ --train_type lora \ --dataset self_cognition.json \ --torch_dtype bfloat16 \ --num_train_epochs 10 \ --per_device_train_batch_size 1 \ --per_device_eval_batch_size 1 \ --learning_rate 1e-4 \ --lora_rank 8 \ --lora_alpha 32 \ --target_modules all-linear \ --gradient_accumulation_steps 16 \ --eval_steps 50 \ --save_steps 50 \ --save_total_limit 2 \ --logging_steps 5 \ --max_length 2048 \ --output_dir output \ --system 'You are a helpful assistant.' \ --warmup_ratio 0.05 \ --dataloader_num_workers 4 \ --model_author swift \ --model_name swift-robot

关键参数说明：

参数	作用
`--train_type lora`	启用 LoRA 微调，避免全参数训练
`--lora_rank 8`	控制适配矩阵秩大小，平衡性能与资源消耗
`--target_modules all-linear`	对所有线性层注入 LoRA，增强表达能力
`--gradient_accumulation_steps 16`	补偿小 batch size 导致的梯度不稳定
`--num_train_epochs 10`	小数据集下增加训练轮数以强化记忆

训练完成后，LoRA 权重保存于/root/output/vX-YYYYMMDD-HHMMSS/checkpoint-XXX目录中。

4. 微调效果验证与角色一致性测试

4.1 原始模型基准测试

在微调前，先验证原始模型的行为表现：

CUDA_VISIBLE_DEVICES=0 \ swift infer \ --model Qwen2.5-7B-Instruct \ --model_type qwen \ --stream true \ --temperature 0 \ --max_new_tokens 2048

提问：“你是谁？”
预期回答：“我是阿里云开发的……” —— 符合出厂设定。

4.2 加载 LoRA 权重进行推理

使用训练所得 Adapter 进行推理，注意替换实际路径：

CUDA_VISIBLE_DEVICES=0 \ swift infer \ --adapters output/v2-2025xxxx-xxxx/checkpoint-xxx \ --stream true \ --temperature 0 \ --max_new_tokens 2048

提问：“你是谁？”
实际回答：“我是一个由 CSDN 迪菲赫尔曼开发和维护的大语言模型。” ✅

提问：“你的名字是什么？”
实际回答：“你可以叫我 Swift-Robot，也可以叫我 CSDN 助手。” ✅

结果表明，经过 LoRA 微调后，模型成功建立了新的身份认知，在多次对话中保持高度一致，未出现角色漂移现象。

5. 集成 vLLM 实现高效离线推理

为进一步提升服务吞吐量，我们将训练好的 LoRA 权重集成至vLLM推理框架，利用 PagedAttention 技术实现高并发、低延迟的生产级部署。

5.1 安装依赖与环境准备

确保已安装支持 LoRA 的 vLLM 版本（≥0.6.2）：

pip install --upgrade vllm

⚠️ 若出现TypeError: LLM.chat() got an unexpected keyword argument 'tools'，说明版本过低，请升级。

5.2 使用 vLLM 加载 LoRA 权重生成响应

# -*- coding: utf-8 -*- from vllm import LLM, SamplingParams from vllm.lora.request import LoRARequest def generate(model_path, lora_path, prompts): sampling_params = SamplingParams(temperature=0.45, top_p=0.9, max_tokens=8192) llm = LLM( model=model_path, dtype='float16', swap_space=16, enable_lora=True ) outputs = llm.generate( prompts, sampling_params, lora_request=LoRARequest(lora_name="adapter", lora_int_id=1, lora_path=lora_path) ) return outputs if __name__ == '__main__': model_path = '/root/Qwen2.5-7B-Instruct' lora_path = '/root/output/v2-2025xxxx-xxxx/checkpoint-xxx' prompts = ["广州有什么特色景点？"] outputs = generate(model_path, lora_path, prompts) for output in outputs: prompt = output.prompt generated_text = output.outputs[0].text print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")

📌 注意：lora_local_path已被弃用，应使用lora_path参数。

5.3 对话模式下的角色维持测试

def chat(model_path, lora_path, conversation): sampling_params = SamplingParams(temperature=0.45, top_p=0.9, max_tokens=8192) llm = LLM( model=model_path, dtype='float16', swap_space=16, enable_lora=True ) outputs = llm.chat( conversation, sampling_params=sampling_params, lora_request=LoRARequest(lora_name="adapter", lora_int_id=1, lora_path=lora_path), use_tqdm=True ) return outputs # 示例对话 conversation = [ {"role": "system", "content": "你是一位专业的导游"}, {"role": "user", "content": "请介绍一些广州的特色景点"}, ] outputs = chat(model_path, lora_path, conversation) for output in outputs: generated_text = output.outputs[0].text print("Assistant:", generated_text)

运行结果显示，模型不仅能准确识别自身身份，还能根据 system prompt 切换至“专业导游”角色，输出结构清晰、信息丰富的旅游指南，展现出良好的上下文控制能力。