AI的提示词专栏：多模态 LLM（Vision-LLM）Prompt 语法-开发者社区

AI 提示词专栏：多模态 LLM（Vision-LLM）Prompt 语法
（2025–2026 年最实用、最有效的写法指南）

目前主流的多模态大模型（支持图文/视频/文档等）包括：

GPT-4o / GPT-4o mini / o1系列
Claude 3.5 Sonnet / Claude 4 Opus
Gemini 1.5 Pro / 2.0 Flash
通义千问VL / 2.5-max
DeepSeek-VL / Janus-Pro
Qwen2-VL-72B / 7B

虽然底层模型不同，但目前业界已形成一套*相对通用的多模态 Prompt 语法结构*，掌握这套结构后，你可以比较轻松地迁移到不同模型。

多模态 Prompt 的黄金结构（2025–2026 年最推荐）

【任务类型声明】（最重要的一句） 你现在是一个专业的[角色]，请严格按照以下要求分析/描述/推理/回答这张/这些图片。 【图片编号与引用顺序】（强烈建议） 图片1：[一句话简要说明这张图的主要内容/拍摄目的/我希望关注的重点] 图片2：[同上] 图片3：[……] 【核心指令】（越具体越好） 请按照以下步骤完成分析： 1. 先整体观察并总结图片最显著的视觉特征（构图、色调、主主体、情绪氛围等） 2. 再逐个描述每个关键元素的位置、细节、相互关系（建议从左到右、从上到下、从前景到背景） 3. 分析图片可能的拍摄意图/场景意义/情感表达 4. 如果有多张图，请说明它们之间的关系（时间顺序、对比、递进、因果等） 5. 最后给出你的最终结论/判断/创意建议/改进意见 【输出格式要求】（强烈建议写死） 请严格使用以下格式回复，不要添加多余的引导语： 【整体印象】 一句话总结最核心视觉感受 【细节拆解】 • 左上区域： • 中央主体： • 右下元素： …… 【元素关系与叙事】 …… 【最终判断 / 建议】 ……

不同任务类型的“变体模板”（直接套用最省力）

1. 图片内容精准描述（电商/存证/医疗影像/艺术分析常用）

请以极度客观、精确、像法医/鉴证专家一样的语气，逐像素级描述这张图片的所有可见内容。 禁止使用任何主观形容词（漂亮、温馨、可爱、恐怖等一律不要出现）。 必须包含： - 光线方向与强度 - 物体相对大小比例 - 文字内容（完整抄录，不要改写） - 颜色（尽量使用标准色名或色号） - 时间线索（钟表、日期、光影角度等） - 任何可能的环境信息（室内/室外、季节、天气）

2. 图片情感/氛围分析（小说配图、广告创意、心理咨询）

请以电影导演/美术指导的视角分析这张图片的叙事情绪与视觉语言。 必须回答： 1. 这张图最想让观众感受到的主要情绪是什么？（用1-2个词） 2. 它通过哪些具体视觉手法（色彩、光影、构图、镜头语言）制造这种情绪？ 3. 如果这是电影海报/小说封面/广告，它最适合搭配哪种故事类型/文案风格？ 4. 如果要加强情绪冲击力，你会如何修改这张图？（列出2-3个具体建议）

3. 多图对比/找不同/时序推理（监控、实验、成长记录）

你现在收到一组按时间顺序排列的图片（共N张，按编号1→N）。 请严格按照以下步骤分析： 1. 确认每张图的时间线索（如果有钟表/日期/光线/阴影/物体变化等） 2. 逐张描述画面中最明显的变化点（至少找出3-5个） 3. 判断整个过程的起因、经过、高潮、结果（如果能推理出的话） 4. 如果这是某种实验/行为/事件，请尝试推测： - 实验目的 - 最终结果 - 是否成功/失败的依据

4. 图表/数据可视化解读（最常用于商业/科研）

请以数据分析师/咨询顾问的身份，专业、客观地解读这张图表/数据可视化。 必须包含以下全部内容： 1. 图表类型与坐标轴含义 2. 最关键的3-5个数据点/趋势/异常值 3. 主要结论（用数据说话） 4. 可能的商业/科研启示或建议 5. 如果有明显问题（刻度错误、误导性设计、数据缺失等），请指出来 6. 如果是你来做决策，根据这张图你会做出什么判断？

5. 图片创意/改图建议（设计师/文案/小说配图常用）

你现在是一位顶尖平面设计师+创意总监。 请针对这张图片，给出以下内容： 1. 当前图片最吸引人的3个视觉亮点 2. 最减分的3个问题（构图、配色、细节等） 3. 如果要把它变成[具体用途：小红书爆款封面/科幻小说插图/奢侈品广告/恐怖片海报等] 请给出3-5个具体的改图方向（描述要非常具体，能直接交给美工执行） 4. 推荐配色方案（主色+辅助色+点缀色，尽量给 HEX 码） 5. 建议添加/删除/移动的元素清单