大模型开发02 - 提示词工程-开发者社区

什么是Prompt

在大语言模型（Large Language Model, LLM）的应用中，我们和模型对话的时候，给到模型的内容不叫question，也不叫request，而是叫Prompt。

提示词（Prompt）就是用户输入给大语言模型的一段文本，用于引导模型生成期望的输出。它可以是一个问题、一段指令、一个上下文描述。它是我们与模型对话的“语言”，也是模型理解我们需求的“钥匙”。

你可以把 Prompt 理解为——告诉模型“该做什么、怎么做、做成什么样”的指令。

但与普通指令不同，Prompt 并不是写代码式的命令，而是一种自然语言描述。比如：“你要做什么“，“你以什么角色做”，“你以什么格式输出”等信息。通过这样设计，Prompt 能有效唤起模型的基础能力，如理解复杂文本、总结信息、生成内容、逻辑推理等等。

为什么 Prompt 很重要？

Prompt 就像是“模型的遥控器”。同一个模型，换一种提问方式，结果可能天差地别。

举个例子：
Prompt 1：

帮我写一份300字的患者健康报告。

Prompt 2：

# 角色 你是一名专业的医疗数据分析师。 # 任务 请根据以下患者的体检数据（血压、血糖、心率等）和病史，分析健康状况、潜在风险，并提出生活或治疗建议。最后以专业报告格式输出。 # 患者信息 姓名：张三 性别：男 年龄：70岁 血压：110-150 身高：170cm 体重：100kg 症状：长期失眠，头痛，心慌 病史：长期吸烟酗酒史，有高血压 # 输出要求 1. 以“患者姓名+健康报告”为标题 2. 章节段落分明 3. 总输出控制在1000字以内。

将以上两个Prompt分别放入deepseek模型进行提问，得到如下两个结果：

Prompt 1 输出：

**患者健康报告** **报告日期：** 2023年10月27日 **患者姓名：** 李先生 **性别：** 男 **年龄：** 52岁 **病历号：** BR202310001 **一、 基本信息** 本次报告基于患者于2023年10月20日的年度体检结果及问诊信息生成。 **二、 主观评估** 患者主诉近期偶有头晕、乏力，夜间睡眠质量一般，多梦易醒。自述工作压力较大，饮食尚可，但口味偏咸，运动量不足。 **三、 客观检查与评估** 1. **体格检查：** 身高175cm，体重80kg，体重指数（BMI）26.1，属于超重范围。血压测量为148/92mmHg，达到1级高血压诊断标准。 2. **实验室检查：** * 血脂：低密度脂蛋白胆固醇（LDL-C）3.5 mmol/L，略高于正常值。 * 空腹血糖：5.8 mmol/L，处于正常值上限。 * 肝功能、肾功能等其余指标均在正常范围内。 **四、 健康风险评估** 综合评估，患者当前主要健康风险为：**高血压、超重、血脂异常及糖尿病前期风险**。这些因素共同构成了心脑血管疾病的高危风险。 **五、 健康指导与建议** 1. **生活方式干预：** 立即开始低盐、低脂饮食，控制每日总热量摄入，建议每周至少进行150分钟中等强度有氧运动（如快走、游泳）。 2. **医学干预：** 建议心血管内科就诊，在医生指导下启动降压药物治疗，并定期监测血压。 3. **定期复查：** 建议3个月后复查血压、血脂及空腹血糖，根据结果调整治疗方案。 **医生签名：** [医生姓名] **机构名称：** [医疗机构名称]

Prompt 2 输出：

# 张三健康报告 ## 一、健康状况分析 患者血压150/110mmHg（2级高血压），BMI 39.1（重度肥胖），伴随头痛、心慌、失眠症状。结合60岁年龄及长期吸烟酗酒史，心血管疾病风险极高。 ## 二、主要风险 1. 高血压危象风险 2. 冠心病/脑卒中发展风险 3. 糖尿病潜在风险（需空腹血糖确认） 4. 睡眠呼吸暂停综合征（与肥胖高度相关） ## 三、建议措施 1. **立即就医**：心内科调整降压方案，监测动态血压 2. **严格戒断**：立即停止吸烟饮酒 3. **体重管理**：目标减重10%（近期目标减重5kg） 4. **生活方式**：低盐饮食（<5g/天）、每日30分钟步行、监测睡眠呼吸 ## 四、紧急预警 若出现胸痛、剧烈头痛或视物模糊，需即刻急诊。

同样是“写报告”，Prompt 1 可能在某些能力比较强的大模型中，会返回提醒，让你补充患者信息，而在一些能力比较差的模型中，可能就会直接胡乱输出一些虚构的内容（一本正经的胡说八道）；而 Prompt 2 的输出显然更符合用户的具体要求，分析也更加专业、更具体。

这说明：Prompt 的设计质量，直接决定了模型输出的质量。你的Prompt设计的越详细、越具体，模型输出的回答就会越准确、越有用。

如何设计Prompt

提示词设计原则与技巧

明确角色设定

为模型指定明确的角色，有助于其理解任务的上下文和预期输出。例如：

# 角色设定 你是一名网络安全专家，请根据以下安全告警日志，并输出专业分析报告

这种方式可以引导模型以特定的语气、风格和专业性进行回应。

清晰具体的任务指令

在设计 Prompt 时，要避免模糊、笼统以及繁琐的指令，而是明确告诉模型需要做什么、如何做以及期望输出的形式。清晰明了的任务指令可以帮助模型准确理解你的意图，减少生成不相关或错误内容的可能性。
并且，一定要注意不要对大模型太礼貌，可以经常用一些命令的词汇来写提示词，比如“必须”，“肯定”，“绝对”，直截了当的对大模型下达指令。

举个例子：

## 模糊指令（效果不佳）： “写一篇文章。” ## 清晰具体的指令（效果更好）： “撰写一篇800字左右的文章，主题是人工智能在医疗领域的应用，要求条理必须清晰、语言通俗。用于发表在公众号上”

通过这种方式，模型能明确任务目标、内容范围和输出要求，从而生成更贴合预期的结果。

结构化提示词

构化提示词，是一种通过明确划分提示内容结构、强化语义层次来提升模型理解与输出质量的提示设计方法。它通常通过清晰地定义角色（Role）、任务（Task）、上下文背景（Context）、输出格式（Format）等关键信息，并辅以显式的分隔符（如编号、引号、换行、Markdown标题等），将复杂指令拆解为模型可识别的模块化输入。

这种方式能显著提高模型对任务目标的理解精度，使输出更加可控、稳定且符合预期结构，尤其适用于多步骤推理、专业内容生成和规范化输出等场景。

# 角色 你是一名资深的市场文案撰写专家 # 任务 撰写一份产品描述 # 要求 1. 强调产品的独特卖点 2. 使用简洁明了的语言 3. 字数控制在150字以内 4. 风格偏向专业且富有吸引力 # 输出格式 - 标题：一句话概括产品卖点 - 正文：2-3句描述产品特性和优势 - 列表：用项目符号列出最核心的3个特点

在这个 Prompt 结构中，每个部分都被明确分隔，模型可以更好地理解任务的角色定位、任务目标、要求细节和输出格式，提高生成内容的准确性和可读性。

指定输出格式

明确告诉模型 “你希望的结果长什么样”，能显著提升输出的结构化和一致性。

大模型虽然具备强大的生成能力，但如果不限定格式，它往往会“自由发挥”，导致输出不符合需求。某些调用参数生成的场景，用户可能需要大模型生成JSON格式，用于后续API的使用，某些分析报告生成的场景，用户就可能需要的是Markdown格式。所以根据场景的不同，通过定义输出格式Prompt，可以有效统一输出格式。
例如：

# 任务描述： 你是一个接口参数生成专家，需要根据自然语言描述生成一个调用API接口的参数配置。 # 输出格式： 请将输出结果以JSON格式给出，字段包括： - pageSize：每页大小，最大不超过10 - pageNum:：当前页，默认1 - type：类型（0 查询商品、1 查询订单） # 用户输入： 我想分页查询订单列表。

预期模型输出：

{"pageSize":10,"pageNum":1,"type":1}

通过规定输出格式（JSON、字段定义、类型限制等），模型生成出的结果可直接用于后续处理或接口调用，减少二次处理成本。

随着模型的能力越来越强，输出的json的稳定性已经很好了，但是在以前，json的输出其实并不是特别的稳定，即使我们要求模型按照json输出也是一样的。所以，在很多实际线上的生产级的应用中，还是需要考虑输出不稳定的情况，比如引入一些json修复的框架来修复模型输出结果存在错误的情况。

提供上下文信息

在提示词中加入任务背景、相关知识、历史会话或上下文内容，能帮助模型更好地理解输入语义，生成更准确、更符合预期的结果。

比如在模型上下文中增加会话历史，让模型具备记忆能力。大模型拥有了用户当前会话的历史问答后，面对用户的新问题，可以实现关联分析的效果，模型会在历史会话的基础上，继续回答用户的新问题。

系统提示词&用户提示词

提示词可以分为系统提示词和用户提示词。

messages=[ {"role": "system", "content": "You are a helpful assistant."}, {"role": "user", "content": "你是谁？"}, ]

**系统提示词（System Prompt）：**由系统开发者或应用平台预先设定的一段指令性文本，用于引导模型的整体行为、角色定位、输出风格、安全边界等。

作用：

设定模型的角色（例如：“你是一个专业作家”）；
指定任务要求（例如：“请给我写一篇文章，用于发表在公众号上面”）
限制输出内容（例如：“不要出现一些让程序员看了之后会反感的内容。”）；
控制格式（例如：用简洁的语言回答，或以JSON格式输出）；
提供上下文框架（例如：始终使用中文，或假设用户位于中国）。

特点：

用户通常看不到或不能直接修改；但是做大模型应用开发的时候，代码里面是可以指定系统提示词的。
在每次对话中隐式地作用于模型；
是模型“默认行为”的基础。

户提示词（User Prompt）：用户在与AI交互时主动输入的问题、指令或请求。

作用：

明确用户当前的具体需求（例如：请围绕内容"关于AI时代对于程序员的影响"）
提供具体上下文（如“根据以下文章总结要点……”）；

特点：

由用户自由输入；
决定单次交互的具体内容方向；

提供示例

Zero-Shot（零样本提示）

Zero-Shot 是指不给模型提供任何示例，仅通过任务指令完成生成任务。

这种方式完全依赖模型的预训练知识与理解能力，简单直接，适合通用任务或模型熟悉的领域。

例如：

# 任务： 判断用户的这句话属于什么意图（查询API、检索知识库、联网查询）。 # 用户输入： 帮我解读一下这个安全漏洞。

优点：简洁、高效、无需额外示例，适合简单直接的任务。
缺点：容易出现偏差或输出格式不统一，特别是任务较复杂时。
在简单场景下，意图比较简单清晰，模型本身能够很好的识别出用户问题属于哪种意图；而在“复杂”场景下，我规定了三种“工具调用”的意图，如果没有相应的示例，模型很难判断你这个问题属于哪种意图，应该调用哪种工具来查询。

Few-Shot（少样本提示）

Few-Shot 是指在提示中加入少量示例，让模型通过这些示例学习思考模式和输出风格。

示例一般是输入与输出的成对样本，用来引导模型模仿思维逻辑和输出结构。

例如：

示例位置对模型输出的影响
在设计 Few-Shot 提示时，我们往往关注：示例选择多少、示例的输入输出格式、提示词的角色设定、任务指令等。但研究显示，示例的位置（即放在提示词的开头、角色前、任务后、用户输入前／后等）也会显著影响模型性能。

有一篇论文 “Where to show Demos in Your Prompt: A Positional Bias of In‑Context Learning”指出：即便示例内容完全不变，仅仅改变其在 Prompt 中的位置，模型的准确率、输出稳定性会有大幅波动。

论文链接：https://arxiv.org/pdf/2507.22887
这个论文的研究提醒我们：Prompt的设计不仅要“是什么”和“怎么写”，还要考虑“放在哪里”。

该论文研究定义了四种典型的示例放置位置：

ssp（Start of System Prompt）：示例放在系统提示的最前面。
esp（End of System Prompt）：示例放在系统提示的末尾。
sum（Start of User Message）：示例放在用户消息的最前面（很多系统默认位置）。
eum（End of User Message）：示例放在用户消息的最后。

主要规律：将示例放在开头（尤其 ssp），通常会带来最稳定且最高的性能提升；而将示例放在用户消息的末尾（eum）常导致性能下降、输出波动大。
研究还发现，一些小模型（参数量小）对这个现象
极为敏感，更容易受位置影响。而大模型（参数量大）中，这种效应则会减弱，比如在llama3模型中，sum 位置（用户消息开头）有时还会优于 ssp。

这些示例体现了大模型对上下文中示例位置的敏感，说明提示词位置设计也是提示工程的重要环节。

经验之谈：提示词设计如“炼丹”

提示词设计可以类比为炼丹：并不是你写得指令再完美、示例再精确，就一定能“生效”或产生预期结果。炼丹是通过各种原料的混合、炼制，试图得到某种具有特定功效的丹药，但具体的配比和炼制过程缺乏精确的科学依据，更多是靠经验。提示词设计也类似，用户需要尝试不同的提示词组合、结构和参数，来使大模型生成理想的结果。但由于大模型的复杂性和不确定性，很难准确预测哪种提示词设置会完全符合预期，需要经过多次尝试才能找到一个相对较好的方案。

同时，模型的输出质量，还受到诸多因素的影响：
模型自身的指令遵循能力
不同模型对指令的敏感度不同，有些模型天生对自然语言指令理解精准，而有些则需要更多示例或严格格式才能执行。即使提示词写得再清晰，如果模型本身理解能力有限，也可能出现偏差或格式不一致的输出。
模型参数量与训练特性
参数量大、训练数据丰富的模型通常能更好地理解复杂提示，但仍可能受任务类型、领域知识和上下文分布影响。小模型或针对特定领域微调的模型，对提示的精确度和位置敏感性更高。
上下文窗口大小与占用情况
是否包含历史会话（记忆能力）、是否包含专业知识（RAG），也会严重影响模型输出效果。并且提示词越长，占用的上下文越多，模型在生成时可用的上下文就越少，可能导致精度下降或忽略部分信息。
提示词设计的迭代性
与炼丹类似，提示词需要多次试验、调整和优化，才能找到“最优配方”。相同提示词，在不同架构、不同参数的大模型中，体现的效果也很可能会出现较大的差异，所以需要反复的调测。这包括调整示例位置、优化示例内容、简化或细化任务指令、明确输出格式等。每一次调整，都可能带来输出稳定性或准确性的提升，直到达到理想效果。

提示词设计就像炼丹，不是单靠“完美配方”就一定生效，还要结合模型自身能力、参数规模、任务难度和上下文窗口等因素。优秀的提示工程师，需要像炼丹师一样实验、观察、调整，才能让大模型稳定产出高质量结果。

高阶Prompt优化方法

思维链 (Chain of Thought, CoT)

思维链 (Chain of Thought, CoT) 是一种通过引导模型“一步一步思考”来解决复杂问题的方法。它不是让模型直接给出最终答案，而是要求模型首先输出一个详细的、逻辑连贯的推理过程，然后再基于这个过程得出结论。
这种方式模仿了人类解决复杂问题时的思考模式，将一个大问题分解为一系列更小、更易于管理步骤。对于算术、常识和符号推理等任务，思维链可以显著提升模型的准确性。
最简单直接的实现方式，就是在提示词的末尾加上一句“魔咒”：“请一步一步思考” 或 “you must think step by step”。

比如，你直接问DeepSeek：

一个水果摊有5箱苹果，每箱重15公斤。今天卖掉了35公斤，还剩下多少公斤苹果？

他的回答是这样的，其实他这个过程就是思维链。他会一步一步的计算得到结果。

这是因为我们用的deepseek V4，他本身就是一个带thinking的模型了。其实，现在很多模型已经很强大了，针对一些数学问题，他都会用COT的方式来解答了。这也证明了COT是行之有效的。

当然，在工作中，还是有些场景，可以用COT的方式来解决一些不稳定的问题。

当然，大模型本身不擅长精确的数学计算，所以上面的例子中，就算 Prompt 中加入了 CoT，也不一定就能保证结论100%正确，模型也可能在任何一步算错。

但是，思维链的核心价值并不在于保证计算的绝对精确，也不在于保证最终结果的绝对正确，而在于它强制模型构建出一条清晰、正确的逻辑路径。
CoT 的首要作用是确保模型正确地理解和分解了问题，这是后续能跟正确解决问题的基础。其次，当模型展示其推理过程时，我们就能清晰地看到它的“思路”，进而通过提示词为错误的步骤进行优化。合适的推理步骤，也有助于后续我们的“工具调用”，模型只需要知道在“在哪一步、应该调用哪个工具”，就可以完成任务了。所以 CoT 非常适合用于我们的复杂任务场景。

自我一致性 (Self-Consistency)

这是智能体工程化的一种进阶用法，它通过“少数服从多数”的原则来提高结果的可靠性。
具体操作是，我们让模型使用思维链对同一个问题进行多次、多样化的推理，然后选择在这些不同的推理路径中出现次数最多的那个答案作为最终答案。
这种方法的好处是，即使模型在某一次的推理中出现了小错误，但只要大多数推理路径都能指向正确答案，我们依然可以获得一个高置信度的结果。它极大地增强了复杂推理任务的稳定性和准确性。

实现步骤

多次调用模型使用相同的 Prompt，以奇数次（如 3、5、7 次）方式调用模型（也可以是不同大模型），确保能通过超过半数投票决策。
收集推理结果记录每次模型输出的完整推理路径和最终结论。
结果汇聚与分析将所有结果汇总后，可以再次交给模型进行总结或统计，判断哪个结论在多个推理路径中出现最频繁。
确定最终答案选择出现次数最多或一致性最高的答案作为最终输出。

优化建议

并发调用：奇数次调用大模型可并行执行，显著降低整体响应时间。
参数调节：适当调整tempature温度系数或者top-p等模型超参，控制模型输出的多样性。条件允许的话，也可以使用不同的大模型，以增强推理路径的多样性。

思维树（Tree of Thoughts，TOT）

TOT的核心思想是：“不要满足于第一个想到的答案，而是像下棋一样，探索多种推理路径，并进行前瞻性评估，最终选择最优解。”

传统的让模型回答问题的方式是“一条道走到黑”，即一步一步推导出一个答案。这对于复杂问题很危险，因为：

模型可能在第一步就走上错误的推理路径。
它只产生一种思路，没有备选方案。
无法进行“回溯”或“自我纠正”。

TOT 就是为了解决这些问题而诞生的。

可以把TOT想象成下象棋：

思维分解：你正在思考下一步棋怎么走。
思维生成：你脑子里想到了3种可能的走法（走马、拱兵、飞象）。
状态评估：你逐一推演每种走法之后对手可能会怎么应对，以及后续几步的局势如何，最终判断出“走马”能为你带来最大的优势。

如：

[任务]设计订单到期关闭方案[步骤一]设计3种订单到期关闭的方案[步骤二]对每种方案评估他的优缺点[步骤三]综合3种方案，选择一个最优方案

反思机制 (Reflection)

与自我一致性类似，反思机制 (Reflection) 同样也是智能体工程化进阶用法。它是一种让模型自我批判、自我修正的策略。它先让模型先生成一个初步的答案，通过大模型之间的多轮对话的过程，引导模型对答案进行评估和反思，找出其中的不足，最后再生成一个经过优化的最终版本。

实现步骤

生成初步答案接收用户Query，注入带有CoT的Prompt之中，调用大模型，获取初步的答案。
反思审查

结合用户的原始Query以及初步答案，一起发送给大模型进行分析研判，判断答案是否能够满足用户Query的要求，如果不满足，则提出相应的改进意见，如果满足，则可以直接进行输出。

答案修订初步答案如果不满足要求，则将用户原始Query + 答案 +
反思审查的改进结果，进行汇聚，合理结构化分层，发送给大模型，要求其生成修订版答案，并附带修改说明（比如：哪些地方有误，如何修正，修正成什么样了）。
生成最终答案对修订后的结果以及用户原始Query进行总结输出。

优化建议
增加迭代环节：可以在答案修订和反思审查环节增加循环迭代，通过反复修订+审核，持续提升答案的精度。

生成 → 反思 → 修订 → 再反思 → 再修订 …… → 生成最终答案

但是会有两个问题需要特别注意：

响应时间，反复迭代会导致响应时间急剧增长，仅适合于离线功能；
模型上下文，由于审核需要结合之前的历史信息来做判断，可能会导致内容的不断堆叠，导致上下文爆炸，很容易超出模型上下文的限制，需要有更多其他的优化策略（比如记忆压缩、摘要提取等等）。

自我一致性（Self-Consistency）和反思机制（Reflection）本质上并不与思维链（CoT）处于同一维度。

CoT 关注的是如何在单次调用中，通过提示词设计来激发模型显式地生成推理过程。

而自我一致性与反思机制则属于更高层次的智能体工程化策略。它们不依赖单次调用，而是通过多轮或多次模型调用，对不同输出结果进行汇总、比较、反思或再加工，以获得更可靠、更高质量的答案。

ReAct 推理+行动 (Reason and Act)

ReAct 框架是将大模型真正转化为“智能体 (Agent)”的关键技术之一，因为它让模型具备了实时与外部世界互动以及动态规划的能力。
它是一种结合思考（Reason）与行动（Act）的智能体框架，用于指导大模型在完成复杂任务时，通过思考、行动、观察、反馈的反复循环迭代来逐步逼近或者完成任务。这种交错循环模仿了人类解决问题的自然模式：先思考后行动，再观察结果后修正思考。

实现步骤

思考推理
规划下一步、分解复杂任务或分析上一步行动的结果，生成具体的执行计划。延续了思维链（CoT）的优势，提供了动态推理和自主规划的能力。
行动（工具调用）
基于执行计划中每一步的指令要求，模型会自主选择并执行一个外部工具或 API（如联网查询、数学计算、代码生成、知识库查询等）。这也是大模型能够与外部世界建立连接的接口。
观察 / 反馈
反馈智能体成功获取到工具执行的结果后，将会根据原始问题和工具的执行结果，判断任务是否完成，如果未完成，则继续返回思考推理，生成下一步行动的结果，反复循环迭代。如果已完成，则直接进入总结阶段。
输出总结
当判断任务已完成时，它会整合整个循环过程中收集到的所有关键信息，生成一个全面、连贯的最终答案。

结构化Prompt框架

与其说是“框架”，其实更准确地说，它们是一些提示词模板（Prompt Templates）。就是用来规范你向大模型发出的请求，让模型更好理解你的意图、背景、角色、格式要求等。

RTF（Role–Task–Format）

RTF 是最基础的提示词模板。它主要强调三个核心要素：角色设定（Role）、任务说明（Task）与输出格式（Format）。这种结构简洁高效，适合通用类任务或者简单任务。
结构说明：

Role（角色）：定义模型的身份或专业背景
Task（任务）：说明模型要完成的具体目标
Format（格式）：指定输出的格式、风格或语气

# Role 你是一名资深市场分析师。 # Task 请分析当前中国新能源汽车市场的发展趋势，指出未来三年的主要增长点。 # Format 请以 Markdown 表格形式输出，包含“趋势”、“原因”、“预测增长率”三列。

ICIO（Instruction–Context–Input–Output）

强调通过清晰分隔任务指令、背景信息、输入与输出要求，使模型在复杂场景中仍能高效执行。适合需要上下文理解或多阶段推理的任务。
结构说明：

Instruction（指令）：核心任务说明
Context（上下文）：背景与辅助信息
Input（输入）：具体需要处理的文本或数据
Output（输出）：结果格式或表达要求

# Instruction 请为指定产品生成一段简短、有吸引力的营销文案。 # Context 你是一名资深品牌营销文案策划，擅长为电商产品撰写高转化率的广告语。目标受众是年轻、注重品质的都市白领。 # Input 产品名称：AI健康监测手环 产品特点：实时监测、可测量血压血氧、监测睡眠和呼吸暂停、外观时尚简约、佩戴轻盈舒适 # Output 请输出一段不超过100字的营销文案，请使用markdown格式，语言简洁、有节奏感，突出健康的生活方式。

CRISPE（Capacity–Role–Insight–Statement–Personality–Experiment）

能力（Capacity）、角色（Role）、背景信息（Insight）、任务指令（Statement）、个性风格（Personality）和实验性回复（Experiment），旨在让提示词更“人格化”与“可控化”。
它通过对模型能力、角色、洞察、语气及实验性的输出控制，使生成内容更具创造性和一致性，常用于学术、科研、内容创作等领域。
结构说明：

Capacity：确定智能体的能力边界 Role：明确身份定位
Insight：提供必要的知识视角或洞察点，也就是上下文背景
Statement：定义具体的任务目标，也就是Task
Personality：设置个性化的语气与风格
Experiment：指定探索性要求，如假设、生成多个答案等

# Capacity and Role（能力与角色）你是一名资深市场策略分析师，擅长品牌定位与消费趋势洞察，熟悉零售行业的数据分析与竞争对比方法。# Insight（洞察）某科技品牌计划在明年推出一款主打AI功能的智能手表，目标群体为25-40岁的城市白领。 公司希望通过差异化策略抢占高端可穿戴设备市场。# Statement（声明）请撰写一份市场策略分析报告，包含以下内容：1. 当前智能手表市场格局与主要竞争者分析2. 目标用户画像与购买动机3. 产品差异化与品牌定位建议4. 三条可执行的市场推广策略# Personality（个性）请以专业咨询顾问的语气撰写，逻辑清晰、数据导向。 报告语言应简洁有力，避免空泛表达。# Experiment（实验）在报告结尾，请额外提供一个“创新性市场假设”， 例如：基于AI健康数据洞察的“主动健康推荐”功能， 并简要说明这一创新可能带来的商业价值与潜在风险。

CO-STAR（Context–Objective–Style–Tone–Audience–Response）

CO-STAR 是一种结构化的提示词框架，旨在通过明确任务要素，帮助用户更精准地向 AI 传递需求，提升输出质量。适用于有明确目标或需要结构化输出的任务，尤其是复杂或中等复杂度的场景，如企业报告、课程设计、市场策略分析等。任务越复杂、输出越结构化、可控性越高，使用 CO-STAR 的效果越明显。
结构说明：

C（Context，背景）：提供任务相关的场景、前提或背景信息，让模型理解“为什么做”。
O（Objective，目标）：明确希望达成的具体结果或目的，帮助模型聚焦“做什么”。
S（Scope，范围）：界定任务的边界，包括内容涵盖范围、限制条件等，避免模型生成无关内容。
T（Tone，语气）：指定输出内容的风格，如正式、幽默、专业或轻松等，确保表达与情境一致。
A（Audience，受众）：说明内容的目标读者或接收对象，帮助模型选择合适的表达方式和术语。
R（Response，响应形式）：要求输出的格式、结构或呈现方式，如列表、短文、步骤或表格等，使输出便于直接使用。

#Context（背景）近年来青少年沉迷社交媒体、遭遇网络不良信息的问题频发，学校计划开展相关主题教育活动；#Objective（目标）帮助青少年理解合理使用社交媒体的重要性，并提供可操作的建议；#Scope（范围）聚焦13-17岁青少年，涵盖使用时长管理、信息辨别、隐私保护3个核心方面，避免过于学术化的理论；#Tone（语气）亲切、鼓励，像学长学姐的建议，避免说教；#Audience（受众）初中至高中阶段的学生；#Response（响应形式）分点列出5条具体建议，每条配一个简短案例或比喻。

TIDD-EC（Task Type–Instructions–Do–Don’t–Example–Content）

用于明确任务目标、执行指令、允许与禁止行为、提供示例和背景信息。它通过清晰的任务分解和操作规范，帮助大语言模型生成更精准、可靠和可控的输出。适用于需要明确指导和规范，哪些能做，哪些禁止做的任务，如教育培训、法律咨询、技术支持等领域。
结构组成：

T（任务类型）：明确任务的性质和目标。
I（指令）：提供执行任务的具体步骤或指导。
D（应做）：列出应当执行的具体操作或行为。
D（不应做）：指出应避免的错误或不当行为。
E（示例）：提供期望输出的示例，以便模型理解预期结果。
C（用户内容）：用户提供的背景信息或数据，供模型参考。

# 任务 撰写法律意见书 # 指令 根据客户提供的案件信息，分析法律风险并提出可行建议 # 你应该做-结合相关法律法规进行分析-条理清晰地列出风险点-提供操作性建议 # 你禁止做-不要提供具体的法律诉讼策略或个案判决-避免主观推测，确保内容专业客观 # 示例 客户希望了解合同条款中的潜在风险，分析指出关键条款可能存在的履约争议，并给出建议如完善合同条款或加强证据准备 # 用户内容-案件类型：商业合同纠纷-关键条款：付款条款、违约责任、交付时间

BROKE（Background–Role–Objective–Key Result–Evolution）

用于明确任务背景、角色定位、目标设定、关键结果和改进方向。它通过对上下文、身份、任务目标及衡量标准的结构化描述，引导大模型生成更贴合目标、可评估和可迭代优化的输出。适用于需要角色扮演、目标导向及持续改进的任务，如活动策划、产品设计、内容创作等领域。
结构组成：

B（背景 Background）：描述任务的背景信息或上下文，为模型提供必要的理解依据。
R（角色 Role）：明确模型在任务中应扮演的角色或身份，以引导输出风格和深度。
O（目标 Objective）：定义任务的具体目标或预期结果，使模型聚焦于核心任务。
K（关键结果 Key Result）：设定衡量任务成功的标准或指标，确保输出可评估。
E（进化 Evolution）：提供改进建议或后续步骤，支持模型生成的内容可持续优化。

# 背景（Background）学校希望提高学生的环保意识，计划开展一次以校园环保为主题的活动。# 角色（Role）作为校园活动策划师，负责设计活动方案并确保可执行性。# 目标（Objective）通过活动让学生了解环保知识并积极参与实践。# 关键结果（Key Result）活动结束后，学生参与率达到80%以上，提交的环保创意作品数量不少于50份。# 进化（Evolution）根据活动反馈调整宣传策略和活动形式，优化互动环节，使下一次活动更具吸引力。

一些建议

在使用提示词时，没必要过于拘泥于哪种框架。结构化提示词的框架还有很多，其实更多的都是在反复制造概念。归根结底，最重要的就是明确几个核心要素：角色定位、任务目标、上下文背景、以及输出格式。
提示词可以灵活调整和组合，千万不要死板。把大模型当人看，把大模型当人看，把大模型当人看，重要的事说三遍！是人就会犯错，就有可能没有按照你的要求来输出，所以在没有达到你理想的输出要求的时候，不要着急，你要针对性的调教他、指导他，合理的调整提示词及格式，保持提示词结构的清晰且具体，明确的任务指令，同时也避免信息过载，确保模型上下文信息不回过多，不会被过多细节干扰。
所以只要抓住这些提示词的主要部分，灵活的应用就能获得高质量、可控的输出。

Prompt评测方法

当我们设计开发出了一个提示词后，是否能让大模型给出我们想要的、高质量的回答。那就需要一套方法来评估它是否真的有效，或者说是绝大多数场景下是有效的。大模型提示词的评测方法主要分为两类：人工评测和自动评测。

针对提示词的评测，其实主要还是靠人工评测的，所谓的炼丹过程，就是提示词调优的过程，只有一次一次的根据问答结果，不断的调整，才能让提示词更好，而一个提示词到底好不好，很多时候机器不如人的感受更加直接和明显

人工评测

利用行业专家或目标用户，根据他们的主观判断、专业知识和实际体验，对模型输出的质量进行主观评估和打分。人工评测就是评测的最权威、最可靠的评估方式，最贴近实际用户的体验，但缺点是成本高、耗时长。

人工评测通过人工打分或标注来评估模型输出质量，更能捕捉文本的主观质量。

评测维度

在设计人工评测标准时，可以从以下几个维度入手（不同任务的侧重点不一样）：

维度	说明
相关性	输出是否与提示词要求紧密相关，没有偏题。
准确性	信息是否真实、无错误，没有胡编乱造。
逻辑性	思维是否连贯、结构合理，没有前后说法不一致的情况出现。
流畅性	语言是否自然、表达是否顺畅，没有出现胡言乱语的情况。
创造性	是否展现出创造性的思维，或者全新的思维角度。
完整性	内容是否覆盖了用户的全部任务要求。
有害性	是否包含偏见、歧视、暴力或不安全内容。

如何打分

除了上述维度，还需要明确评委应当如何进行判断和反馈，常见的方式有两种：

绝对评分：对每一个结果单独打分（例如 1-10 分），不需要与其他结果比较。这用于衡量单个提示词的绝对质量是否达标。
相对排名：同时看到由不同提示词生成的多份结果，并选择相对最优的结果。这用于精确地比较不同提示词设计间的差异性，常用于最终的优化决策。

自动评测

有的时候，人工评测的工作量比较大，那么也可以借助自动评测，但是记住，自动评测一般是适合特定场景的。

评测指标

准确率和召回率是用于评估分类模型（尤其是二分类问题）性能的指标。它们从两个不同的角度来衡量模型的好坏，通常此消彼长，需要权衡。

比如我们有一个模型，任务是从100个人中识别出谁是“坏人”（正类），谁是“好人”（负类）。

首先，我们需要了解一个更基础的表格——混淆矩阵，它是计算所有指标的基础。

模型的预测结果和真实情况组合，会得到四种情况：

真实是“坏人” (正类)	真实是“好人” (负类)
预测为“坏人”	真正例 (TP)	假正例 (FP)
预测为“好人”	假负例 (FN)	真负例 (TN)

我们来逐一解释：

TP：你预测他是坏人，他确实是坏人。 -> 抓对了
FP：你预测他是坏人，但他其实是好人。 -> 冤枉了好人
FN：你预测他是好人，但他其实是坏人。 -> 放跑了坏人
TN：你预测他是好人，他确实是好人。 -> 判断正确

**精确率：**模型“认为对的”结果中，有多少是真的对的。

准确率讲求的是：“宁缺毋滥” ：我抓的人，要尽量保证每一个都是真正的坏人。我不在乎有没有漏掉几个坏人，但我非常在乎不能冤枉好人。典型场景：垃圾邮件标记。

**召回率：**所有“真的对”的结果中，模型找回了多少。

召回率讲求的时候“宁可错杀一千，不可放过一个”：我的目标是尽可能把所有的坏人都抓出来。即使这意味着可能会误抓一些好人，我也要确保漏网的坏人越少越好。典型场景：疾病筛查。

F1 Score：F1 Score是平衡精确率和召回率的指标，F1分数是准确率和召回率的调和平均数。它同时考虑了这两者，只有当准确率和召回率都很高时，F1分数才会高。

评测方法

BLEU：主要用于机器翻译，通过比较生成文本和参考文本之间的n-gram重叠度来打分。
ROUGE：与BLEU关注精确率不同，ROUGE更关注召回率，即参考摘要中的词有多少被生成的摘要覆盖到了。
METEOR：比BLEU更先进，考虑了同义词、词干化等，与人类判断相关性更高。
BERTScore：利用BERT等预训练模型的上下文嵌入，计算生成文本和参考文本在语义空间上的相似度，更能捕捉语义相似性。

基于更强模型的评测

这是目前大模型领域最流行和实用的自动评测方法，它用模型来弥补传统指标的不足。

方法：借助一个能力更强、更稳定的模型（比如参数量更大、规模更大），让它扮演“专家裁判”。我们给这个“裁判模型”一个详细的评分准则（如：逻辑性、完整性、真实性、与提示词任务的关联度等），让它对被测模型针对提示词的输出进行打分。

prompt：你是一个公正的裁判。请比较以下两个模型对同一个问题的回答，从‘准确性和帮助性’维度判断哪个更好。只输出‘A’或‘B’。

优势：速度快、成本低于人工，最重要的是，它能评估主观、复杂的文本质量，让自动评测的结果更接近人类的主观判断。

什么是Prompt

为什么 Prompt 很重要？

如何设计Prompt

提示词设计原则与技巧

明确角色设定

清晰具体的任务指令

结构化提示词

指定输出格式

提供上下文信息

系统提示词&用户提示词

提供示例

Zero-Shot（零样本提示）

Few-Shot（少样本提示）

经验之谈：提示词设计如“炼丹”

高阶Prompt优化方法

思维链 (Chain of Thought, CoT)

自我一致性 (Self-Consistency)

思维树（Tree of Thoughts，TOT）

反思机制 (Reflection)

ReAct 推理+行动 (Reason and Act)

结构化Prompt框架

RTF（Role–Task–Format）

ICIO（Instruction–Context–Input–Output）

CRISPE（Capacity–Role–Insight–Statement–Personality–Experiment）

CO-STAR（Context–Objective–Style–Tone–Audience–Response）

TIDD-EC（Task Type–Instructions–Do–Don’t–Example–Content）

BROKE（Background–Role–Objective–Key Result–Evolution）

一些建议

Prompt评测方法

人工评测

评测维度

如何打分

自动评测

评测指标

评测方法

基于更强模型的评测

【空间压榨到倒计时】真 · O(1) 原地起飞：我与 AI 死磕 LeetCode 1260 的 6 阶进化录

Java入门与环境搭建 课堂笔记

安卓端仿微信语音通话UI组件包，带录音控制与状态灯实时反馈

Tesseract OCR引擎深度实战：企业级文字识别解决方案全解析

2026论文双降终极榜单：10款降AI率工具， 合规修正一路顺畅

【毕业设计】SpringBoot+Vue+MySQL 校园资产管理平台源码+数据库+论文+部署文档

Java入门与环境搭建课堂笔记

2026论文双降终极榜单：10款降AI率工具，合规修正一路顺畅