Fish-Speech-1.5提示词工程：提升合成质量的Prompt技巧-开发者社区

Fish-Speech-1.5提示词工程：提升合成质量的Prompt技巧

想让AI语音听起来不再像机器人，而是充满情感、抑扬顿挫，甚至能笑能哭吗？Fish-Speech-1.5的强大之处，就在于它不仅能“读”文字，更能“理解”文字背后的情绪和意图。但很多朋友在用的时候，只是简单地把文字输进去，结果出来的声音还是平平淡淡，总觉得差点意思。

其实，秘密就藏在“提示词”里。这就像你给一个演员讲戏，只说台词是不够的，你得告诉他，这句话是生气地说，还是温柔地讲，是笑着说，还是哭着喊。Fish-Speech-1.5内置了一套非常丰富的情绪、语调和特效标记，用好了它们，你的语音合成效果会立刻提升好几个档次。

今天，我就来手把手带你玩转Fish-Speech-1.5的提示词工程，用大量实际的例子，看看不同的“指令”是如何彻底改变一段语音的。

1. 基础概念：什么是提示词标记？

在开始之前，我们先快速理解一下核心概念。Fish-Speech-1.5的提示词，就是在你希望AI朗读的文本中，插入一些特殊的“标记”。这些标记用英文括号()包裹起来，告诉模型：“嘿，从这里开始，用某种特定的方式说话。”

比如：

(angry)：表示愤怒的情绪。
(whispering)：表示用耳语的语调。
(laughing)：表示加入笑声效果。

模型看到这些标记后，就会在合成语音时，调整相应的发音方式、语调、节奏甚至加入非语言声音。最关键的一点是，这些标记是“全局”或“段落级”生效的。也就是说，你插入一个(sad)，它会影响后面一整段话，直到你插入另一个情绪标记来改变它，或者直到这段文本结束。

理解了这个，我们就可以开始实战了。

2. 情感控制：让语音拥有“喜怒哀乐”

情感是让语音活起来的灵魂。Fish-Speech-1.5支持从基础到高级的数十种情感。

2.1 基础情感实战

让我们从一个中性文本开始，看看不同情感标记带来的变化。

原始文本（无标记）：

“今天天气真好，我打算去公园散步。”

现在，我们分别加上(joyful)（快乐的）、(sad)（悲伤的）和(angry)（愤怒的）标记。

示例1：快乐版

(joyful) 今天天气真好，我打算去公园散步。

合成效果预测：语调会上扬，语速可能稍快，声音明亮，听起来充满活力，仿佛说话人嘴角带着笑。

示例2：悲伤版

(sad) 今天天气真好，我打算去公园散步。

合成效果预测：语调下沉，语速变慢，可能会有轻微的叹气感，声音变得低沉。同样一句话，听起来却像在怀念一个无法再去的晴天，充满惆怅。

示例3：愤怒版

(angry) 今天天气真好，我打算去公园散步！

合成效果预测：重音会落在“真”和“散步”上，语速急促，声音的强度和张力增加。这句话可能听起来像在反讽，或者因为被打扰而不能去散步的恼怒。

你可以直接在WebUI的文本框中这样输入。一个更实用的技巧是，在长文本中切换情感，营造故事感：

示例4：情感转折

(excited) 我中奖了！一百万！(sad) 但是，我发现彩票过期了。

前半句兴奋、高亢，后半句瞬间低落、缓慢，形成一个强烈的对比，非常适合短视频配音或有声故事。

2.2 高级情感与复杂表达

除了基础情感，模型还支持更细腻的情感，这对于制作高质量的有声内容至关重要。

示例5： sarcastic（讽刺的）

(sarcastic) 哦，你这主意可真是“太棒了”，我怎么就没想到呢。

讽刺语气通常伴随着不自然的语调起伏和特定的重音，(sarcastic)标记能很好地捕捉这种味道。

示例6： whispering + scared（耳语+害怕）

(whispering) (scared) 你听……门外是不是有声音？

这里我们组合了语调标记和情感标记。先设定语调为耳语，再叠加害怕的情绪。合成出来的声音会是气声、轻微颤抖、充满紧张感的低语，恐怖氛围直接拉满。

3. 语调与风格控制：不只是“说”，而是“演绎”

情感是内在的，语调则是外在的表现形式。Fish-Speech-1.5提供了几种关键的语调标记。

示例7： shouting（喊叫）

(shouting) 小心！前面有车！

用于紧急警告、体育赛事解说等场景。合成声音会提高音量和音调，但不同于单纯的机械放大，它会带有喊叫时特有的发声紧张感。

示例8： in a hurry tone（匆忙的语调）

(in a hurry tone) 快来不及了，会议还有五分钟就开始了，我的报告还没保存！

语速会显著加快，句子之间的停顿缩短，甚至有些字会连在一起，完美还原着急时的说话状态。

示例9： soft tone（柔和的语调）

(soft tone) 宝宝乖，该睡觉了。妈妈给你讲个故事。

音调变得柔和，音量适中偏小，节奏舒缓。这是哄睡、温柔叙述、客服安慰等场景的利器。

4. 特殊音效：打破“纯语音”的界限

这是Fish-Speech-1.5特别有趣的功能，它可以在语音中嵌入非语言的人声效果。

示例10： laughing（笑声）

(joyful) 然后他就摔了个大跟头，(laughing) 哈哈哈，真是笑死我了。

在“哈哈哈”部分，模型会生成真实、自然的笑声，而不是生硬地读出“哈哈哈”这三个字。笑声的情感会和前面的(joyful)保持一致。

示例11： sighing（叹气）

今天的工作终于做完了。(sighing) 唉，真是累死了。

在“唉”的部分，会合成一个清晰的、带有疲惫感的叹气声，让抱怨显得无比真实。

示例12：混合使用——讲一个尴尬的笑话

(embarrassed) 我给大家讲个笑话……（停顿）(awkward) 呃……怎么突然想不起来了。(nervous chuckling) 呵呵……

这个例子融合了多种标记：

(embarrassed)开启尴尬情绪。
文本中自然的“（停顿）”提示。
(awkward)切换到更具体的窘迫感。
(nervous chuckling)用紧张地轻笑收尾。

最终合成效果会非常有层次，像一个真实的社交尴尬现场。

5. 实战技巧与避坑指南

掌握了基本标记后，下面这些技巧能让你用得更好。

5.1 标记的位置与范围

默认作用到结尾：一个标记会持续影响其后的所有文本，直到出现新标记或文本结束。
精确控制范围：如果你只想让效果持续一小段，可以在结束后用(normal)或另一种明确的情感/语调来重置。但注意，(normal)本身不是一个官方标记，更稳妥的方式是切换到你想用的下一个状态，比如从(shouting)切回(soft tone)。
标记是文本的一部分：直接把它们写在要朗读的文本流里，模型会自行处理。不需要在UI的额外参数框里设置。

5.2 语言与标记的适配

根据官方文档，情感标记对英语、中文、日语的支持最好。其他语言虽然也能合成，但情感表达可能没那么精准。在创作多语言内容时，这一点需要注意。

5.3 避免过度使用

“过犹不及”在这里同样适用。不要每个短句都换一个标记，这会导致合成语音听起来跳跃、不自然。情绪和语调的变化应该符合内容本身的逻辑和节奏。

5.4 复杂提示词的编写思路

当你需要合成一段复杂的独白或故事时，可以像导演写分镜脚本一样编写提示词：

示例13：一段电影独白脚本

(nostalgic, soft tone) 还记得那个夏天吗？蝉鸣得很响，阳光透过树叶，在地上洒下斑驳的光点。(voice slightly trembling) 我们以为那样的日子永远不会结束。(sighing) 可是啊……(sad) 时间总是推着人往前走，谁也不等。

(注：nostalgic（怀旧的）和voice slightly trembling（声音微颤）是示例，实际请使用模型支持的标记，如(sad)或(moved)（感动的）来近似表达。)

思路是：先用括号描述你想要的“氛围”和“声音状态”，然后再写台词。在实际输入时，将这些描述转化为模型能识别的标记。

6. 总结

玩转Fish-Speech-1.5的提示词，本质上是在学习如何与一个强大的语音合成模型进行“深度对话”。你给的指令越细致、越符合人类表达的规律，它还给你的声音就越生动、越有感染力。

从今天介绍的这些例子可以看出，无论是做视频配音、创作有声书、开发智能语音助手，还是制作游戏角色对话，善用情感、语调和音效标记，都能极大地提升最终作品的品质。它让机器合成的声音，第一次真正拥有了“演技”。

最好的学习方法就是动手去试。不妨现在就打开Fish-Speech的WebUI，把上面的例子复制进去，亲自听听不同提示词带来的神奇变化。然后，尝试为你手头的项目写一段带有标记的脚本，你会发现，一个全新的、充满表现力的语音世界正在等你探索。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

Fish-Speech-1.5提示词工程：提升合成质量的Prompt技巧