Lychee-Rerank-MM开源教程：模型微调数据格式与指令模板构造方法-开发者社区

Lychee-Rerank-MM开源教程：模型微调数据格式与指令模板构造方法

1. 什么是Lychee多模态重排序模型

Lychee-Rerank-MM不是传统意义上的生成模型，而是一个专注“判断力”的多模态精排专家。它不负责从零创作内容，而是擅长在已有候选结果中，精准识别哪一条最匹配用户的真实意图——尤其当这个意图来自文字或图片时。

你可以把它想象成一个经验丰富的图书管理员：你递给他一张商品截图，再附上一句“找类似风格的背包”，他不会画出新包，但能从几十个候选商品里，把最贴切的三个挑出来，并按匹配度打分。这种能力，在图文搜索、电商推荐、知识库问答等场景中，直接决定了最终用户体验的天花板。

它的底层是Qwen2.5-VL-7B-Instruct，但经过专门的监督微调和对比学习优化，不再是泛泛而谈的多模态理解模型，而是为“重排序”任务量身定制的判别式模型。参数规模标称7B，实际为8.29B，采用BF16精度推理，在16GB显存的消费级显卡上就能稳定运行。服务默认监听7860端口，开箱即用，无需复杂配置。

最关键的是，它真正打通了“指令—查询—文档”三者的语义对齐。不是简单比对文本相似度，也不是粗暴拼接图像特征，而是让模型理解“你让我干什么”（指令）、“你想知道什么”（查询）、“这些材料能帮上忙吗”（文档）之间的逻辑关系。这种理解力，正是高质量重排序的核心。

2. 微调前必知：数据格式设计原则

要让Lychee-Rerank-MM在你的业务场景中发挥最大价值，微调不是可选项，而是必选项。但微调成败，七成取决于数据格式是否合理。这里没有玄学，只有三条朴素却关键的设计原则。

2.1 核心结构：三元组是唯一合法单元

所有训练数据必须组织为严格定义的三元组：(instruction, query, document)。少一个不行，多一个没用。这不是框架限制，而是任务本质决定的——模型需要同时看到“任务要求”、“用户输入”和“待评估材料”，才能学会三者间的隐含关联。

instruction是任务说明书，告诉模型“你现在扮演什么角色，要完成什么目标”。例如：“作为电商客服，请从商品描述中找出与用户问题最相关的答案。”
query是用户原始输入，可以是纯文本（如“这款耳机续航多久？”），也可以是一张图片（如用户上传的耳机实物图）。
document是候选材料，同样支持文本、图片或图文混合。注意：每个三元组只包含一个document，批量排序是在推理阶段通过多次调用实现的，不是训练时喂入多个文档。

2.2 文本字段：自然语言优先，拒绝机器编码

instruction和query字段必须使用自然、流畅、符合真实用户表达习惯的中文。禁止出现以下写法：

instr: web_search_retrieval_v2（这是代码标识符，不是指令）
query: {"type": "text", "content": "苹果手机价格"}（这是JSON序列化，不是人话）
document: [IMG:0x3a4f2d]（这是占位符，不是图像内容描述）

正确示范：

instruction: 你是一名资深数码导购，请根据用户提问，从产品参数中找出最直接相关的回答。 query: iPhone 15 Pro Max 的屏幕尺寸是多少？ document: 屏幕：6.7 英寸超视网膜XDR显示屏，Pro级OLED，2796 x 1290像素分辨率，460 ppi

为什么？因为模型在推理时接收的就是这样的自然语言输入。训练数据如果用机器语言，等于教它一套假规则，上线后必然水土不服。

2.3 图像处理：不传图，只传“可读描述”

Lychee-Rerank-MM原生支持图像输入，但在构建微调数据集时，切勿直接嵌入二进制图片或base64编码。原因有二：一是数据集体积爆炸，二是破坏文本主导的微调范式。

正确做法是：为每张图像准备一段高质量、信息密集、无主观修饰的文本描述。这段描述要能独立承载图像的核心语义，让仅看文字的人也能准确还原画面关键信息。

“一张很酷的咖啡杯照片，氛围感十足”（空洞、主观、无信息）
“白色陶瓷马克杯，杯身印有黑色手写体‘Good Morning’字样，置于木质桌面上，背景虚化”（客观、具体、可验证）

这个描述将作为query或document字段的值参与训练。模型会学习将这段文字与图像的视觉表征对齐——这正是Qwen2.5-VL预训练赋予它的能力，我们只需提供正确的“文字锚点”。

3. 指令模板构造：从通用到场景化的跃迁

指令（instruction）是撬动模型能力的杠杆。同一组query和document，配上不同指令，模型给出的得分可能天差地别。构造指令模板，不是写作文，而是做精准的“任务工程”。

3.1 通用指令骨架：四要素缺一不可

所有高质量指令都应包含四个基本要素，按此顺序组织：

角色设定（Who）：明确模型身份，如“你是一名法律助理”、“作为专业摄影师”
任务动作（What）：清晰动词，如“判断”、“检索”、“匹配”、“筛选”
判断标准（How）：定义“好”的具体维度，如“最直接回答问题”、“风格最接近”、“技术参数最匹配”
输出约束（Output）：限定输出形式，如“只返回0-1之间的相关性分数”、“按相关性降序排列”

组合起来，一个基础但稳健的通用指令是：

“你是一名专业的图文检索助手，请判断以下文档是否能准确、直接地回答查询问题。相关性越高，分数越接近1；完全无关则为0。请只输出一个0到1之间的数字，不要任何解释。”

这个模板安全、普适，适合冷启动阶段。但它只是起点，不是终点。

3.2 场景化指令优化：用业务语言替代技术语言

真正的威力在于场景化。哈工大团队提供的示例指令（如Web搜索、商品推荐）是极佳的起点，但必须根据你的业务细节进行“翻译”。

以电商场景为例：

原始指令：“Given a product image and description, retrieve similar products”
优化后：“你是一名资深服装买手，请根据用户上传的这件连衣裙实拍图，从我们的库存中找出版型、面料、风格最接近的3款在售商品。重点考察领口设计、袖长比例和裙摆垂坠感。”

区别在哪？优化后的指令：

用“服装买手”替代抽象的“retrieve”，赋予角色真实感；
将模糊的“similar”拆解为可感知的业务要素（领口、袖长、垂坠感）；
明确输出是“3款在售商品”，而非抽象的“相似产品”，与下游系统无缝对接。

这种翻译过程，本质上是把产品经理的需求文档，转译成模型能执行的精确操作指南。

3.3 指令多样性策略：避免过拟合的隐形陷阱

一个常见误区是：为每个业务子场景都设计一个独一无二的指令，导致训练数据中指令高度碎片化。这会让模型陷入“记指令”而非“学能力”的陷阱。

更优策略是构建指令族谱：以1-2个核心指令为根，通过添加轻量级修饰语生成变体。

根指令A（通用判别）：“请判断该文档是否能准确回答查询问题。”
变体A1（强调时效）：“……请特别关注文档中信息的发布日期是否在近一年内。”
变体A2（强调来源）：“……请优先信任来自官方渠道的文档。”
根指令B（风格匹配）：“请评估文档与查询在视觉风格上的一致性。”
变体B1（强调色彩）：“……重点比较主色调和配色方案的协调性。”
变体B2（强调构图）：“……分析画面主体位置、留白比例是否相似。”

这样，模型学到的不是几十个孤立指令，而是“判别”和“匹配”两大核心能力，以及如何根据上下文动态调整判断权重。这才是鲁棒性的来源。

4. 实战：构建你的第一个微调数据集

理论终需落地。下面以一个真实的“企业知识库问答”场景为例，手把手演示如何从零构建微调数据集。

4.1 场景定义与数据采集

假设你是一家医疗器械公司的AI助手开发者。用户常上传CT影像截图并提问，如“这个肺部结节是良性的吗？”。现有知识库有大量PDF格式的临床指南、专家共识、产品说明书。

第一步，明确三元组来源：

query：真实用户提问（脱敏后）+ 对应CT截图的文本描述（由放射科医生撰写）
document：从PDF中提取的关键段落（如“《肺结节诊疗指南》第3.2条：直径<6mm的纯磨玻璃结节，恶性概率<1%”）
instruction：基于业务需求定制（见下节）

第二步，采集原始数据。不要追求海量，先精选50个高质量样本。质量标准：每个样本的query和document之间必须存在明确、可验证的逻辑支撑关系。

4.2 指令编写与数据标注

针对此场景，我们设计根指令：

“你是一名持有执业医师资格证的AI医学顾问，请严格依据权威临床指南和专家共识，判断以下文档是否能为用户的医学问题提供直接、可靠、无歧义的答案。答案必须基于文档原文，不得自行推断。请只输出0到1之间的相关性分数。”

然后，为体现专业性，加入两个变体：

变体1（强调证据等级）：“……请特别关注文档是否出自中华医学会、美国ACR等一级学会发布的指南。”
变体2（强调适用范围）：“……请确认文档所述结论是否明确适用于用户CT截图中显示的结节类型（如：纯磨玻璃、混合密度）。”

标注时，邀请一位主治医师对每个三元组打分（0-1），作为监督信号。这个人工分数就是模型学习的目标。

4.3 数据格式与文件组织

最终数据保存为JSONL（每行一个JSON对象），这是Hugging Face Datasets最友好的格式：

{ "instruction": "你是一名持有执业医师资格证的AI医学顾问，请严格依据权威临床指南和专家共识，判断以下文档是否能为用户的医学问题提供直接、可靠、无歧义的答案。答案必须基于文档原文，不得自行推断。请只输出0到1之间的相关性分数。", "query": "CT显示左肺上叶有一个5mm纯磨玻璃结节，性质如何？\n[IMAGE_DESC] 胸部CT横断面图像，左肺上叶可见一圆形、边界清晰、密度均匀的磨玻璃样阴影，直径约5mm，周围无实性成分。", "document": "《肺结节诊疗指南（2023版）》第3.2条：对于直径小于6mm的纯磨玻璃密度结节，其恶性概率低于1%，建议年度随访，无需立即干预。", "score": 0.98 }

注意：score字段是浮点数，不是字符串。文件命名为medical_rerank_train.jsonl，放在项目data/目录下。

5. 微调执行与效果验证

有了数据，微调本身变得非常直接。Lychee-Rerank-MM提供了开箱即用的微调脚本，核心命令如下：

# 进入项目目录 cd /root/lychee-rerank-mm # 启动微调（以BF16精度，使用Flash Attention 2） python train.py \ --model_name_or_path "/root/ai-models/vec-ai/lychee-rerank-mm" \ --train_data_path "data/medical_rerank_train.jsonl" \ --output_dir "./checkpoints/lychee-medical-v1" \ --per_device_train_batch_size 2 \ --gradient_accumulation_steps 4 \ --num_train_epochs 3 \ --learning_rate 2e-5 \ --bf16 True \ --use_flash_attention_2 True \ --max_length 3200

5.1 关键参数解读

--per_device_train_batch_size 2：由于7B模型显存占用高，单卡batch size设为2是稳妥选择。配合--gradient_accumulation_steps 4，等效batch size为8，保证梯度更新稳定。
--max_length 3200：这是Lychee的默认最大长度，足够容纳长文档和详细图像描述。若你的数据普遍较短，可适当降低（如2048）以加速训练。
--use_flash_attention_2 True：务必开启！这是性能提升的关键，能显著减少显存占用并加快训练速度。

5.2 效果验证：不止看Loss，要看业务指标

训练完成后，不要只盯着loss曲线下降。必须用真实业务case做AB测试：

Baseline：使用原始未微调的Lychee模型，对同一组100个用户query+候选文档进行重排序。
Test：使用微调后的新模型，对同一组数据重跑。
评估：邀请3位领域专家，对两组结果中Top3的文档进行盲评，打分标准：“该文档是否能直接、无歧义地回答用户问题？（1=完全不能，5=完美回答）”

计算平均分差。如果微调模型平均分高出0.8分以上，且Top1命中率提升20%+，即可认为微调成功。这才是业务认可的“效果”。

6. 总结：让重排序成为你的业务护城河

Lychee-Rerank-MM的价值，不在于它有多大的参数量，而在于它把一个复杂的多模态判别任务，封装成了极其简洁的“指令+查询+文档”三元组接口。掌握这套接口的构造方法，你就掌握了将通用AI能力，精准注入垂直业务场景的钥匙。

回顾本文要点：

微调数据必须是严格的三元组，文本字段坚持自然语言，图像用高质量描述替代；
指令不是提示词工程，而是任务工程，需包含角色、动作、标准、输出四要素；
场景化不是堆砌指令，而是构建可扩展的指令族谱，让模型学能力而非记套路；
构建数据集要小而精，验证效果要回归业务本质，用专家盲评代替抽象指标。

当你能为自己的每一个核心业务场景，都定制出一套高效、鲁棒的重排序流水线时，用户搜索的每一次点击、每一次停留，都在无声地加固你的产品护城河。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

Lychee-Rerank-MM开源教程：模型微调数据格式与指令模板构造方法