ms-swift + EvalScope：百个评测集自动打分太高效了-开发者社区

ms-swift + EvalScope：百个评测集自动打分太高效了

在大模型开发流程中，评测不是最后一步，而是贯穿训练、微调、对齐全过程的“质量守门员”。你花三天微调一个模型，却要花两天手动跑十几个评测集、整理结果、对比分数——这种重复劳动，早该被自动化了。ms-swift 框架把 EvalScope 评测能力深度集成进来，真正实现了“一条命令、百个数据集、全自动打分、结构化输出”。这不是概念演示，是每天都在真实实验室里跑通的工程实践。

本文不讲抽象原理，不堆参数列表，只聚焦一件事：怎么用最短路径，让模型评测从“耗时耗力的手工活”，变成“敲完回车就等报告”的确定性流程。你会看到：如何一键触发覆盖纯文本+多模态的100+权威评测集；如何精准控制采样规模与并发节奏；如何把自定义业务题库无缝接入标准评测流水线；以及最关键的——评测结果怎么读、哪里改、下一步往哪走。

全程使用真实命令、真实输出结构、真实踩坑经验，所有操作均可在单卡3090上复现。现在，我们直接开始。

1. 为什么评测环节值得专门优化

很多开发者把评测当成“验证阶段”——模型训完了，随便挑两三个数据集跑一下，看个准确率就收工。但实际项目中，评测暴露的问题往往比训练本身更致命：

一个在 MMLU 上得分82% 的模型，在 CMMLU（中文版）上可能只有63%，说明语言适配存在断层；
在 GSM8K（数学推理）表现优异，但在 HumanEval（代码生成）上却频繁语法错误，提示指令泛化能力不足；
多模态模型在 MMBench-CN 上得分高，但在 RealWorldQA（真实场景图文问答）上答非所问，暴露了数据分布偏差。

这些问题，靠人工逐个跑、肉眼比对，效率低、易遗漏、难归因。而 ms-swift + EvalScope 的组合，把评测变成了可编程、可调度、可沉淀的基础设施：

统一入口：swift eval命令同时支持纯文本、多模态、URL远程、自定义数据集四类评测模式；
开箱即用：内置150+预置评测集，无需下载、解压、格式转换，名字写对就能跑；
资源可控：显存占用、并发数、采样量、超时阈值全部可配置，小显存设备也能稳定运行；
结果结构化：输出 CSV、JSON、HTML 多格式报告，关键指标自动聚合，支持横向对比；
无缝衔接：评测结果可直接作为训练终止条件（如--eval_stop_threshold 75.0），或触发自动模型导出。

这不是“锦上添花”，而是把评测从“事后抽查”升级为“过程仪表盘”。下面，我们就用真实命令，把它跑起来。

2. 快速启动：一条命令跑通100+评测集

2.1 环境准备：轻量安装，按需加载

ms-swift 的评测模块采用插件式设计，避免全量安装带来的冗余依赖。只需执行：

pip install ms-swift[eval] -U

该命令会安装核心框架 + EvalScope 后端 + OpenCompass（默认评测引擎）+ 必要的图像/视频处理库（Pillow、opencv-python、decord）。如果你只做纯文本评测，可进一步精简：

pip install ms-swift[eval-text] -U

安装完成后，验证是否就绪：

swift eval --help | grep "eval_dataset"

若能看到参数说明，说明环境已就绪。

小贴士：评测过程不依赖 GPU 训练算力，但推理后端（vLLM/SGLang）需要 GPU。若仅做 CPU 推理评测（速度较慢），可加--infer_backend pt --device cpu。

2.2 首次运行：用 Qwen2.5-1.5B-Instruct 跑通全流程

我们以轻量级模型 Qwen2.5-1.5B-Instruct 为例，执行一次完整评测：

CUDA_VISIBLE_DEVICES=0 \ swift eval \ --model Qwen/Qwen2.5-1.5B-Instruct \ --infer_backend vllm \ --eval_limit 50 \ --eval_dataset mmlu,ceval,gsm8k,humaneval,bbh

这条命令做了什么？

--model Qwen/Qwen2.5-1.5B-Instruct：从 ModelScope 自动拉取模型权重与 tokenizer；
--infer_backend vllm：启用 vLLM 加速推理，吞吐提升3倍以上；
--eval_limit 50：每个评测集只采样前50条样本，快速验证流程（生产环境可设为None全量跑）；
--eval_dataset mmlu,ceval,gsm8k,humaneval,bbh：并行启动5个主流评测集，覆盖知识、中文、数学、代码、推理五大能力维度。

执行后，你会看到类似输出：

[2025-04-10 14:22:33] INFO Starting evaluation for dataset: mmlu [2025-04-10 14:22:33] INFO Loading dataset mmlu from OpenCompass... [2025-04-10 14:22:41] INFO Loaded 50 samples for mmlu [2025-04-10 14:22:41] INFO Starting inference with vLLM backend... [2025-04-10 14:23:15] INFO mmlu accuracy: 68.00% ... [2025-04-10 14:28:02] INFO Evaluation completed. Results saved to: eval_output/opencompass/20250410_142233/

评测结果自动保存在eval_output/目录下，结构清晰：

eval_output/ └── opencompass/ └── 20250410_142233/ ├── configs/ # 使用的评测配置 ├── predictions/ # 模型原始输出（JSONL） ├── results/ # 各数据集详细得分（CSV/JSON） └── summary/ # 综合汇总报告（summary.csv + summary.html）

打开summary/summary.csv，你会看到这样一张表：

dataset	subset	metric	value	num_sample
mmlu	all	acc	68.00	50
ceval	all	acc	72.40	50
gsm8k	test	acc	54.20	50
humaneval	pass@1	pass@1	38.00	50
bbh	all	acc	61.80	50

关键洞察：这张表就是你的“模型能力快照”。它不告诉你“模型好不好”，而是明确指出“在哪好、在哪弱”。比如 gsm8k 仅54.2%，说明数学推理是短板，下一步应重点加入数学强化数据微调。

2.3 扩展到百个评测集：批量指定与智能过滤

官方文档提到支持“100+评测集”，但实际使用中，并非所有数据集都需每次运行。ms-swift 提供两种高效方式：

方式一：按能力域批量调用

EvalScope 内置了评测集分组标签。例如：

# 运行全部中文能力评测集（ceval、cmmlu、gaokao、csl等12个） swift eval --model Qwen/Qwen2.5-1.5B-Instruct --eval_dataset chinese # 运行全部数学与代码评测集（gsm8k、math、humaneval、mbpp等8个） swift eval --model Qwen/Qwen2.5-1.5B-Instruct --eval_dataset math-code # 运行全部多模态评测集（MMBench、ScienceQA、RealWorldQA等20+个） swift eval --model Qwen/Qwen2-VL-2B-Instruct --eval_dataset multimodal

方式二：用通配符匹配

支持 shell 风格通配符，避免手写长列表：

# 运行所有以 'm' 开头的评测集（mmlu、mbpp、math、mmmu...） swift eval --model Qwen/Qwen2.5-1.5B-Instruct --eval_dataset "m*" # 运行所有包含 'qa' 的评测集（piqa、siqa、ReCoRD、strategyqa...） swift eval --model Qwen/Qwen2.5-1.5B-Instruct --eval_dataset "*qa*"

注意：通配符需用引号包裹，防止 shell 提前解析。

3. 精准控制：让评测既快又准

自动化的价值，不仅在于“能跑”，更在于“跑得明白”。ms-swift 提供了细粒度的控制参数，确保评测结果可信、可复现、可对比。

3.1 并发与资源：小显存设备也能稳跑

评测性能瓶颈常在推理后端。ms-swift 允许你像调优训练一样精细控制：

CUDA_VISIBLE_DEVICES=0 \ swift eval \ --model Qwen/Qwen2.5-1.5B-Instruct \ --infer_backend vllm \ --vllm_tensor_parallel_size 1 \ --vllm_max_model_len 4096 \ --eval_num_proc 64 \ # 文本评测默认256，此处降为64防OOM --eval_limit 100 \ --eval_dataset ceval

关键参数说明：

--eval_num_proc：客户端并发请求数。值过高会导致请求队列堆积、超时失败；值过低则无法压满 GPU。建议从min(256, GPU显存GB数×32)开始尝试；
--vllm_max_model_len：vLLM 的最大上下文长度，必须 ≥ 评测集最长样本长度（CEval 样本通常<2048）；
--vllm_tensor_parallel_size：vLLM 张量并行数，单卡设为1即可。

对于显存紧张的 T4 或 RTX3060，推荐组合：

--infer_backend pt \ --device cpu \ --eval_num_proc 8 \ --eval_limit 20

虽速度慢，但零显存占用，适合调试数据集格式或 prompt 模板。

3.2 结果可靠性：温度、重试、超时全掌控

大模型输出具有随机性。ms-swift 提供三重保障提升结果稳定性：

swift eval \ --model Qwen/Qwen2.5-1.5B-Instruct \ --temperature 0.0 \ # 关闭随机性，强制 greedy decode --eval_retry 3 \ # 单样本失败最多重试3次 --eval_timeout 120 \ # 单样本推理超时120秒 --eval_dataset gsm8k

--temperature 0.0是评测黄金准则：确保结果可复现，避免因随机性导致分数波动；
--eval_retry防止网络抖动或临时 OOM 导致整批失败；
--eval_timeout避免个别难样本卡死整个流程（如 GSM8K 中极长数学推导）。

3.3 输出定制：只关注你需要的字段

默认输出包含所有中间结果，但日常分析只需关键指标。可用--eval_summary_only精简：

swift eval \ --model Qwen/Qwen2.5-1.5B-Instruct \ --eval_dataset ceval,gsm8k \ --eval_summary_only \ --eval_output_dir my_eval_report

此时my_eval_report/summary/下仅保留summary.csv和summary.html，无原始预测文件，节省90%磁盘空间。

4. 接入业务：把你的考卷变成标准评测项

通用评测集反映共性能力，但真实业务场景有独特要求。ms-swift 支持将内部测试题库、客户验收标准、合规检查清单，全部转化为标准评测项，与官方集同场竞技。

4.1 两种格式：选择题（CEval）与问答题（General-QA）

选择题格式（CEval）：适用于单选/多选判断

创建目录my_exam/ceval_finance/，放入两个文件：

default_dev.csv（few-shot 示例，可为空）：

id,question,A,B,C,D,answer,explanation 1,《巴塞尔协议III》对银行核心一级资本充足率的最低要求是？,4.5%,6%,7%,8%,C,核心一级资本充足率最低要求为7%

default_val.csv（正式评测题，500题）：

id,question,A,B,C,D,answer,explanation 1,商业银行流动性覆盖率（LCR）的监管最低标准是？,100%,120%,150%,200%,A,LCR不得低于100% 2,根据《证券投资基金法》，公募基金托管人由谁担任？,商业银行,证券公司,基金公司,保险公司,A,必须由商业银行或符合条件的其他金融机构担任 ...

问答题格式（General-QA）：适用于开放生成

创建my_exam/qa_customer/目录，放入default.jsonl：

{"query": "客户张三的信用卡账单日是每月5日，还款日是每月25日。他于4月20日消费1000元，这笔消费的最后还款日是哪天？", "response": "5月25日"} {"query": "客户李四申请了个人经营贷，贷款期限3年，采用等额本息还款。第12期还款中，本金占比和利息占比分别是多少？", "response": "本金占比约32.5%，利息占比约67.5%"} ...

格式要点：query是问题，response是标准答案（用于 BLEU/ROUGE 计算），history字段暂不支持，留空即可。

4.2 注册评测集：一行 JSON 定义整个考试

在项目根目录创建custom_exam.json：

[ { "name": "finance_ceval", "pattern": "ceval", "dataset": "/absolute/path/to/my_exam/ceval_finance", "subset_list": ["default"] }, { "name": "customer_qa", "pattern": "general_qa", "dataset": "/absolute/path/to/my_exam/qa_customer", "subset_list": ["default"] } ]

重要：dataset必须为绝对路径，相对路径在分布式或多进程下极易失效。

4.3 运行混合评测：官方集 + 业务集一起打分

swift eval \ --model Qwen/Qwen2.5-1.5B-Instruct \ --eval_dataset ceval,gsm8k \ --custom_eval_config custom_exam.json \ --eval_limit 100

执行后，summary.csv中将新增两行：

dataset	subset	metric	value	num_sample
finance_ceval	default	acc	86.20	100
customer_qa	default	rouge-l	73.50	100

你现在拥有了一个“双轨制”评测报告：一边是行业通用基准（CEval/GSM8K），一边是你的业务护城河（金融题库/客服问答）。当新模型在 CEval 上提升2分，却在finance_ceval上下降5分，你就知道该优先优化什么了。

5. 结果解读与行动指南：从分数到改进

评测结束不是终点，而是决策起点。ms-swift 的结构化输出，天然支持快速归因与行动。

5.1 看懂 summary.csv：三个关键列

打开summary.csv，重点关注这三列：

dataset：评测集名称，代表能力维度（如ceval= 中文知识，gsm8k= 数学推理）；
metric：评估指标，acc（准确率）、pass@1（代码通过率）、rouge-l（文本相似度）；
value：核心得分，不是孤立数字，而是比较标尺。

行动建议：

若某value显著低于同类模型（查 ModelScope leaderboard），说明该能力存在系统性缺陷；
若value在多个相关数据集上均偏低（如gsm8k、math、svamp全<60%），指向数学微调数据不足；
若value在单一数据集异常高（如ceval95% 但cmmlu65%），警惕过拟合或数据泄露。

5.2 深挖 predictions/：定位具体失败样本

predictions/目录下是 JSONL 格式原始输出，每行对应一个样本：

{ "dataset": "ceval", "subset": "default", "index": 42, "input": "问题：下列哪项不属于商业银行的负债业务？\nA. 吸收存款\nB. 发行金融债券\nC. 同业拆入\nD. 发放贷款\n", "gold": "D", "pred": "C", "is_correct": false, "reasoning": "发放贷款是资产业务，不是负债业务。选项C同业拆入是负债业务。" }

这个样本揭示了关键问题：模型知道“发放贷款是资产业务”，但混淆了“同业拆入”的性质。这提示你，应在微调数据中加强“银行业务分类”相关样本。

5.3 自动化决策：用评测结果驱动训练闭环

ms-swift 支持将评测分数作为训练终止条件。例如：

swift sft \ --model Qwen/Qwen2.5-1.5B-Instruct \ --dataset my_finance_data \ --eval_steps 100 \ --eval_dataset finance_ceval \ --eval_stop_threshold 85.0 \ --output_dir ft_finance

当finance_ceval准确率首次达到85%，训练自动停止并保存最佳 checkpoint。这比固定 epoch 更科学，也更贴近业务目标。

6. 总结：评测不是终点，而是新循环的起点

ms-swift + EvalScope 的价值，远不止于“自动跑分”。它把原本割裂的“训练-评测-分析-优化”链条，拧成了一条可自动运转的飞轮：

快：100+评测集，一条命令并行启动，5分钟内获得能力全景图；
准：细粒度控制保证结果可复现，结构化输出支持秒级归因；
活：自定义评测集无缝接入，让业务标准成为模型能力的刻度尺；
连：评测结果可直接触发训练终止、模型导出、告警通知，形成闭环。

当你不再为“跑评测”花费时间，你才能真正聚焦于“为什么这个分数不高”、“下一个数据集该加什么”、“这个bad case背后是什么认知盲区”。

这才是大模型工程化的本质：用确定性的工具链，释放不确定性的创造力。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

ms-swift + EvalScope：百个评测集自动打分太高效了