动手实操：用ms-swift完成一次完整的图像描述生成-开发者社区

动手实操：用ms-swift完成一次完整的图像描述生成

1. 引言：为什么选择ms-swift做图像描述任务？

你有没有遇到过这样的场景：手里有一堆产品图、风景照或者用户上传的图片，却要一个个手动写标题和说明？效率低不说，还容易出错。如果能让AI自动“看图说话”，把每张图的内容清晰准确地描述出来，那会节省多少时间和人力？

今天我们就来动手实现这个能力——使用ms-swift框架完成一次完整的图像描述生成任务。

ms-swift不是普通的推理工具，它是一个集训练、微调、推理、部署于一体的大模型轻量级开发框架，特别适合多模态任务（比如图文对话、图像理解、视觉问答等）。我们这次要用的就是它的核心能力之一：对多模态大模型进行高效微调，并用于图像内容描述生成。

你能从本文学到什么？

如何准备适合图像描述任务的数据
怎么用ms-swift快速微调一个支持“看图说话”的模型
完整的训练与推理流程实操
常见问题排查与性能优化建议

整个过程不需要深入代码底层，也不需要复杂的环境配置，只要你会基本的命令行操作，就能跟着一步步跑通。

2. 环境准备：搭建基础运行平台

在开始之前，先确保你的系统具备以下条件：

操作系统：Ubuntu 20.04 或 22.04（推荐）
GPU：NVIDIA显卡，至少8GB显存（如RTX 3070/3090/A10）
Python版本：3.10+
CUDA驱动：11.8或以上

2.1 创建虚拟环境并安装依赖

# 创建独立Python环境 python3 -m venv swift-env source swift-env/bin/activate # 升级pip pip install --upgrade pip

2.2 安装ms-swift框架

# 安装完整版ms-swift（包含多模态所需组件） pip install ms-swift[all]

提示：[all]会自动安装PyTorch、transformers、torchvision等必要依赖。如果你已经装好了这些库，也可以只安装核心包pip install ms-swift。

验证是否安装成功：

swift --version

如果输出类似ms-swift 0.3.0的信息，说明安装成功。

3. 数据准备：构建图像描述数据集

要让模型学会“看图说话”，我们必须给它提供足够多的“图片+文字描述”配对样本。这里我们采用LLaVA格式，这是目前主流多模态训练中广泛使用的标准结构。

3.1 数据目录结构设计

建议组织如下文件夹结构：

image_caption_data/ ├── images/ │ ├── cat_on_window.jpg │ ├── beach_sunset.jpg │ └── office_desk.jpg └── captions.json

所有图片放在images/目录下，标注文件为captions.json。

3.2 编写标注文件（JSON格式）

每个样本包含图像路径和对应的自然语言描述。示例如下：

[ { "id": "001", "image": "images/cat_on_window.jpg", "conversations": [ { "from": "user", "value": "<image>\n请描述这张图片的内容。" }, { "from": "assistant", "value": "一只橘色的猫正趴在窗台上晒太阳，窗外是绿树成荫的小区花园，阳光透过玻璃洒在它的身上。" } ] }, { "id": "002", "image": "images/beach_sunset.jpg", "conversations": [ { "from": "user", "value": "<image>\n这张照片里有什么？" }, { "from": "assistant", "value": "这是一张海边日落的照片，金色的夕阳正在沉入海平面，天空呈现出橙红渐变的色彩，沙滩上有几个模糊的人影在散步，海浪轻轻拍打着岸边。" } ] } ]

注意：
<image>是固定标记，表示图像输入位置。
conversations字段模拟真实对话流程，便于模型学习交互式响应。

你可以自己收集5~10张图片并手动编写描述，用于测试训练效果。

4. 模型选择与微调配置

我们选用Qwen-VL-Chat-7B这个多模态大模型作为基础模型。它由通义千问团队推出，在图文理解、视觉问答等方面表现优秀，且已被ms-swift原生支持。

4.1 配置文件：qwen_vl_caption.yaml

创建一个YAML配置文件，定义整个训练流程：

experiment_name: qwen_vl_image_caption # 实验名称 model_type: qwen-vl-chat # ms-swift内置模型类型 framework: pt # 使用PyTorch后端 # 模型加载参数 model_id: Qwen/Qwen-VL-Chat-7B model_args: torch_dtype: fp16 # 使用半精度降低显存占用 device_map: auto # 自动分配GPU资源 # 数据集配置 dataset: train: - type: custom_multi_modal # 自定义多模态数据集 dataset_root: ./image_caption_data # 数据根目录 file_name: captions.json # 标注文件名 image_folder: images # 图像所在子目录 eval: null # 暂不设置验证集 # 微调策略（使用LoRA，仅训练少量参数） sft_type: lora lora_args: r: 8 # LoRA秩，控制新增参数量 lora_alpha: 32 # 缩放系数 lora_dropout: 0.05 # Dropout防止过拟合 target_modules: ['c_attn', 'qkv_proj'] # Qwen-VL的关键注意力模块 lora_target: all # 训练超参数 train_args: num_train_epochs: 3 # 训练3轮 per_device_train_batch_size: 1 # 单卡批次大小（根据显存调整） gradient_accumulation_steps: 8 # 梯度累积弥补小batch影响 learning_rate: 1e-4 # 学习率（LoRA常用值） weight_decay: 0.01 lr_scheduler_type: cosine # 余弦退火调度器 warmup_ratio: 0.05 # 前5%步数预热 logging_steps: 5 # 每5步打印一次日志 save_steps: 50 # 每50步保存一次检查点 output_dir: ./output/caption_model # 输出目录 fp16: true # 启用混合精度 gradient_checkpointing: true # 开启梯度检查点节省显存 # 其他设置 evaluation_strategy: no seed: 42

💡 小贴士：如果你只有8GB显存，可以把torch_dtype改为int8并启用qlora，进一步降低内存需求。

5. 开始微调：启动训练任务

一切就绪后，执行以下命令启动训练：

swift train --config qwen_vl_caption.yaml

首次运行时，ms-swift会自动从ModelScope下载Qwen-VL-Chat-7B模型（约14GB），请保持网络畅通。

5.1 训练过程中你会看到什么？

终端将实时输出如下信息：

Epoch 1/3 | Step: 20/100 | Loss: 1.874 | LR: 2.34e-5 | GPU Mem: 7.2GB

关键指标包括：

Loss：越低越好，理想情况下应持续下降
GPU Mem：监控显存使用情况，避免OOM
LR：当前学习率变化趋势

训练完成后，最终的适配器权重会保存在./output/caption_model目录中。

6. 推理测试：让模型“看图说话”

训练结束后，我们可以立即用微调好的模型来做图像描述生成。

6.1 命令行一键推理

swift infer \ --model_id Qwen/Qwen-VL-Chat-7B \ --adapter_name_or_path ./output/caption_model \ --multi_modal_inputs '{"image": "./image_caption_data/images/cat_on_window.jpg", "text": "请描述这张图片的内容。"}'

运行后，你会看到类似这样的输出：

response: 一只橘色的猫正趴在窗台上晒太阳，窗外是绿树成荫的小区花园，阳光透过玻璃洒在它的身上。

恭喜！你的模型已经能“看懂”图片并生成自然语言描述了。

6.2 Python脚本方式调用（更灵活）

创建caption_infer.py文件：

from swift.llm import get_model_tokenizer, infer_multi_modal import torch # 加载模型和分词器 model, tokenizer = get_model_tokenizer( model_id='Qwen/Qwen-VL-Chat-7B', adapter_name_or_path='./output/caption_model', torch_dtype=torch.float16, device_map='auto' ) # 执行多模态推理 result = infer_multi_modal( model, tokenizer, image='./image_caption_data/images/beach_sunset.jpg', text='请详细描述这张图片中的场景。' ) print("AI生成的描述：", result)

运行脚本：

python caption_infer.py

这种方式更适合集成到Web服务或批处理任务中。

7. 效果优化与常见问题解决

虽然我们已经跑通了全流程，但在实际应用中可能会遇到一些挑战。以下是几个典型问题及解决方案。

7.1 显存不足怎么办？

问题现象	解决方案
报错`CUDA out of memory`	启用QLoRA + int8量化
训练速度极慢	减少图像分辨率或关闭不必要的日志

修改配置片段示例：

sft_type: qlora model_args: torch_dtype: int8 train_args: per_device_train_batch_size: 1 gradient_checkpointing: true

这样可以在8GB显存上顺利运行。

7.2 描述内容太泛或不准确？

可能原因：

数据量太少（<50条）
描述风格不一致（有的简洁，有的啰嗦）

改进建议：

增加高质量样本至100条以上
统一描述模板，例如都按“主体+动作+环境+细节”结构书写
在prompt中加入约束：“请用一句话描述，不超过50字”

7.3 如何提升推理速度？

对于生产环境，可以使用vLLM加速引擎：

pip install vllm swift infer \ --model_id Qwen/Qwen-VL-Chat-7B \ --adapter_name_or_path ./output/caption_model \ --infer_backend vllm \ --vllm_max_model_len 4096 \ --multi_modal_inputs '{"image": "test.jpg", "text": "描述图片"}'

vLLM可显著提升吞吐量，适合高并发场景。

8. 总结：从零到落地的完整路径

通过这篇文章，我们完整走了一遍基于ms-swift的图像描述生成流程。回顾一下关键步骤：

环境搭建：安装ms-swift及其依赖，准备好GPU环境；
数据准备：构建符合LLaVA格式的图文对数据集；
模型选型：选择Qwen-VL-Chat-7B作为基础模型；
配置编写：使用YAML文件定义训练参数；
启动训练：一条命令完成LoRA微调；
推理验证：通过CLI或Python脚本测试生成效果；
调优改进：针对显存、速度、质量等问题进行优化。

这套方法不仅适用于图像描述，还可以轻松迁移到其他多模态任务，比如：

商品图自动生成文案
医疗影像辅助报告生成
教育场景中的题目识别与解答
社交媒体内容自动打标签

最重要的是，整个过程无需编写复杂代码，也不需要深入了解模型内部机制，真正实现了“低门槛+高性能”的AI应用开发。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

动手实操：用ms-swift完成一次完整的图像描述生成