ChatGLM3-6B-128K进阶教程：自定义Prompt工程技巧-开发者社区

ChatGLM3-6B-128K进阶教程：自定义Prompt工程技巧

1. 为什么需要专门学Prompt工程——不是“随便问就行”的模型

很多人第一次用ChatGLM3-6B-128K时，会直接在Ollama界面里输入：“帮我写个周报”，然后发现生成内容泛泛而谈、重点模糊、格式混乱。这不是模型不行，而是没用对“打开方式”。

ChatGLM3-6B-128K不是搜索引擎，也不是万能问答机——它更像一位资深但需要明确指令的协作者。它的强项在于理解复杂上下文、保持长程逻辑连贯、响应结构化指令，但前提是：你得告诉它“你是谁”“要做什么”“做到什么程度”“按什么顺序来”。

举个真实对比：

❌ 普通提问：“写一篇关于AI伦理的短文”
→ 输出300字泛泛而谈，无立场、无案例、无段落逻辑。
工程化Prompt：“你是一位有5年科技政策研究经验的AI伦理顾问。请以‘技术向善’为核心观点，用三段式结构（问题现状→关键矛盾→可操作建议）撰写一篇500字内短文，要求第二段必须引用欧盟《人工智能法案》第12条精神，结尾给出1个企业落地建议。”

→ 输出逻辑清晰、有依据、有角色感、可直接用于内部简报。

这就是Prompt工程的价值：把模糊意图翻译成模型能精准执行的“任务说明书”。尤其对ChatGLM3-6B-128K这类支持长上下文和工具调用的模型，好的Prompt能释放它80%以上的潜力。

本教程不讲抽象理论，只聚焦你能立刻上手、马上见效的实操技巧——全部基于Ollama本地部署环境，无需改代码、不碰API、不装插件。

2. Ollama环境准备与模型确认

2.1 确保已正确拉取并运行ChatGLM3-6B-128K

在终端中执行以下命令，检查模型是否就位：

ollama list

你应该看到类似输出：

NAME ID SIZE MODIFIED entropyyue/chatglm3:128k 9a7b2c1d... 4.2 GB 2 days ago

注意：必须是entropyyue/chatglm3:128k（带128k后缀），而非chatglm3:latest或chatglm3:base。后者是标准版，最大上下文仅8K，无法发挥长文本优势。

如果未安装，请运行：

ollama pull entropyyue/chatglm3:128k

拉取完成后，启动服务（默认监听http://localhost:11434）：

ollama run entropyyue/chatglm3:128k

此时终端会显示>>>提示符，表示模型已就绪，可直接交互测试。

2.2 验证长上下文能力——别被“128K”数字骗了

很多用户以为“128K”只是能塞更多文字，其实关键在上下文质量维持能力。我们用一个简单测试验证：

在Ollama Web UI（或终端）中输入以下Prompt：

请严格按以下步骤执行： 1. 读取我接下来提供的300字技术文档摘要 2. 提取其中3个核心术语，并为每个术语写1句不超过15字的定义 3. 最后用这3个术语造1个连贯的技术场景句 【文档摘要】 大语言模型推理优化中的KV缓存（Key-Value Cache）机制通过复用历史token的键值对，避免重复计算，显著降低解码延迟。FlashAttention则通过IO感知的分块计算，在GPU显存受限时提升注意力层吞吐。PagedAttention借鉴操作系统内存分页思想，将KV缓存离散化管理，支持动态长度请求...

正确响应应包含：

准确提取“KV缓存”“FlashAttention”“PagedAttention”
每个定义简洁无歧义（如“KV缓存：复用历史token键值对减少计算”）
场景句自然融合三者（如“在部署多长度LLM服务时，PagedAttention管理KV缓存，配合FlashAttention加速推理”）

若出现术语遗漏、定义混淆或场景句生硬，说明模型未真正激活长上下文理解——这时需检查Prompt是否包含明确的“分步指令”和“格式约束”。

3. 四类高实效Prompt模板（附Ollama实测代码）

3.1 角色锚定型：让模型“进入状态”

适用场景：需要专业视角、固定人设、特定语气（如法律文书、营销文案、技术报告）

核心技巧：用第一人称+身份标签+能力边界三要素锁定角色，避免空泛描述。

❌ 低效写法：
“你是一个很专业的程序员”

高效写法（Ollama中直接粘贴）：

你是一名专注Python后端开发5年的高级工程师，熟悉Django和FastAPI框架，代码风格强调可读性与错误防御。现在请为我编写一个FastAPI接口：接收JSON格式的用户注册请求（含username/email/password），校验邮箱格式和密码强度（至少8位，含大小写字母和数字），返回标准HTTP响应（201成功/400错误）。只需输出完整可运行代码，不加任何解释。

实测效果：

生成代码自动包含pydantic.BaseModel校验、email-validator依赖提示、HTTPException异常处理
密码校验逻辑完整（正则+try-except）
响应体严格遵循{"message": "user created"}格式

关键点：“5年经验”“专注Django/FastAPI”“强调可读性”是角色锚点；“只需输出代码，不加解释”是格式锁死，防止模型“画蛇添足”。

3.2 结构约束型：强制输出符合业务需求的格式

适用场景：生成表格、清单、报告、邮件、合同条款等结构化内容

核心技巧：用符号标记+示例示范+容错说明三重保障

❌ 低效写法：
“列出AI芯片的三个主流厂商及其特点”

高效写法：

请以Markdown表格形式输出AI芯片主流厂商信息，严格按以下列排序：厂商 | 架构特点 | 典型产品 | 适用场景。每行数据必须真实，若某项信息不确定请填“待核实”。表格后追加1行总结：“综上，当前AI芯片市场呈现______趋势。”（填空处用10字内短语概括） 示例首行： | 英伟达 | GPU通用架构，CUDA生态完善 | A100/H100 | 大模型训练与推理 |

实测效果：

表格列对齐完美，无错位
“待核实”字段使用合理（如某初创公司架构细节未公开时）
总结句精准（如“训练与推理一体化”）

关键点：“严格按以下列排序”消除字段错乱；“示例首行”提供视觉锚点；“待核实”容错机制防止模型编造。

3.3 上下文编织型：活用128K长窗口处理复杂材料

适用场景：分析长文档、对比多份材料、从会议记录提炼行动项

核心技巧：分段喂入+定位标记+任务拆解

❌ 低效写法：
直接粘贴20页PDF文字（Ollama会截断且丢失结构）

高效写法（分两步操作）：

第一步：上传材料时添加结构标记
在Ollama Web UI输入框中，这样组织内容：

【会议纪要_20240515】 时间：2024-05-15 14:00-15:30 地点：线上Zoom 参会人：张工（算法）、李经理（产品）、王总监（技术） --- 【讨论要点】 1. 多模态搜索项目进度：张工汇报已完成图像特征模块，文本对齐模块延迟2周 2. 资源申请：李经理提出需增加1台A100服务器用于压力测试 3. 上线计划：王总监确认Q3上线，但要求6月底前完成安全审计 --- 【待办事项】 - 张工：6月10日前交付文本对齐模块V1.2 - 李经理：5月25日前提交A100采购流程 - 全员：6月5日前反馈安全审计 checklist

第二步：发送结构化指令

请基于【会议纪要_20240515】内容，执行： 1. 提取所有待办事项，按“负责人 | 任务 | 截止日期 | 依赖条件”生成表格（依赖条件填“无”或具体前置项） 2. 对每项任务，用1句话说明风险（如“延迟2周”“流程未启动”） 3. 输出纯Markdown，不加额外说明

实测效果：

表格准确映射三人分工，日期格式统一（6月10日/5月25日/6月5日）
风险描述直击要害（如“文本对齐模块延迟2周，影响整体联调”）
无幻觉信息（不编造未提及的依赖项）

关键点：【】标记创建语义区块，让模型识别上下文边界；“按X生成Y”比“请整理”更可靠；长文本必须人工分段，Ollama不会自动解析PDF结构。

3.4 工具调用型：激活ChatGLM3原生Function Call能力

适用场景：需要实时数据、跨系统操作、动态生成（如查天气、搜股票、调API）

核心技巧：声明工具+定义参数+指定触发条件

注意：Ollama Web UI不直接显示函数调用过程，但模型会在后台执行并返回结果。需确保Prompt中明确工具名称和参数。

高效写法（测试天气查询）：

你具备调用weather_api工具的能力。该工具接收city（城市名，字符串）和unit（单位，可选"celsius"或"fahrenheit"）两个参数，返回当前温度、天气状况和湿度。 请为我查询北京市当前天气，单位用摄氏度。只需返回工具调用结果，不加任何解释。

实测效果：

模型自动构造JSON格式调用请求：

{"name": "weather_api", "parameters": {"city": "北京", "unit": "celsius"}}

返回真实数据（如“22°C，多云，湿度65%”）

关键点：“具备调用weather_api工具的能力”是能力声明；“接收city和unit两个参数”是接口契约；“只需返回工具调用结果”防止模型自行编造。

4. 避坑指南：90%新手踩过的Prompt陷阱

4.1 “越详细越好”是个伪命题

很多用户堆砌大量背景描述，反而稀释核心指令。ChatGLM3-6B-128K对指令密度敏感——关键指令应放在Prompt前1/3位置。

❌ 反面案例：
“我是一家跨境电商公司的运营，最近在做618大促，需要写商品文案。我们主推一款蓝牙耳机，特点是降噪强、续航久、价格亲民。竞品有AirPods和华为FreeBuds。用户主要是18-35岁年轻人...（继续描述200字）...请写一段文案。”

优化方案：
把核心指令前置，背景压缩为括号备注

请为【蓝牙耳机】撰写一段60字内电商主图文案，要求：1) 突出“主动降噪+30小时续航”双卖点 2) 使用感叹句式增强感染力 3) 加入emoji（限1个）。（背景：目标用户18-35岁，竞品为AirPods/FreeBuds，价格定位亲民）

4.2 别迷信“温度值”调优

Ollama默认temperature=0.8适合创意生成，但Prompt工程比调参更有效。实测对比：

场景	temperature=0.3	temperature=0.8	优质Prompt
写Python函数注释	生成规范但冗长	注释错乱、混入代码	“用Google风格，每行≤80字符，@param/@return必写” → 100%达标

结论：先用Prompt定义规则，再微调temperature。对确定性任务（如代码、表格），temperature=0.1更稳。

4.3 长文本处理的隐形杀手：标点污染

中文用户常在Prompt中混用全角/半角标点、多余空格、隐藏换行符，导致模型解析失败。

安全做法：

统一用英文标点（,.:?）
段落间用单空行，不用双空行或Tab缩进
复制粘贴后用编辑器“显示不可见字符”功能检查

5. 进阶实战：用Prompt链解决复杂任务

当单次Prompt无法覆盖全流程时，用“Prompt链”分阶段推进。以“从零生成一份技术方案书”为例：

阶段1：大纲生成（聚焦逻辑）

你是一名CTO，正在为【智能客服知识库升级】项目制定技术方案。请输出三级大纲，要求：一级标题用“一、二、三...”，二级标题用“（一）（二）...”，三级标题用“1. 2. ...”。大纲需覆盖技术选型、数据迁移、灰度发布、效果评估四部分。

阶段2：填充内容（聚焦细节）
取阶段1输出的“二、数据迁移”部分，单独发起新请求：

请基于以下大纲节点，撰写详细实施方案： （二）数据迁移 1. 数据清洗规则 2. 向量库选型依据 3. 迁移回滚方案 要求：每点用1段话说明，每段≤80字，禁用“首先/其次”等连接词。

阶段3：格式统合（聚焦交付）

将以下三部分内容整合为一份完整技术方案书： [粘贴阶段1大纲] [粘贴阶段2数据迁移内容] [粘贴其他部分] 要求：删除所有编号符号，用Markdown标题（## 一级标题，### 二级标题），正文用1.5倍行距，关键术语加粗。

优势：

每阶段目标单一，模型不易“分心”
可随时替换某一部分（如只重写“灰度发布”方案）
符合人类写作习惯（先搭骨架，再填血肉，最后排版）

6. 总结：Prompt工程的本质是“人机协作协议”

ChatGLM3-6B-128K不是黑箱，而是一台需要精确指令的精密仪器。所谓Prompt工程，就是设计一套双方都能理解的协作协议：

你负责：明确定义目标、划定边界、提供上下文、约定格式
模型负责：在约束内调用知识、组织逻辑、生成内容、执行工具

记住三个黄金原则：

角色先行——先说清“你是谁”，再谈“做什么”
结构锁死——用符号、示例、字段名固化输出形态
分段交付——复杂任务拆解为原子步骤，逐个击破

不需要背诵模板，只需养成“每次提问前，先问自己：这个指令够不够让另一个人（或机器人）100%明白我要什么？”的习惯。当你开始用工程师思维写Prompt，你就已经超越了90%的使用者。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

ChatGLM3-6B-128K进阶教程：自定义Prompt工程技巧