没有基线？没有基准？没问题！敏捷聊天机器人开发的实验性方法-开发者社区

原文：towardsdatascience.com/lessons-from-agile-experimental-chatbot-development-73ea515ba762

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/488ff47ee8118ca0ca821e4452c1491f.png

本文回顾了我最近关于将基于 LLM 的产品投入生产的经验教训的演讲。你可以在这里查看视频。here

当你拥有一个每天为数千名客户在四种不同语言中提供服务的聊天机器人，并尝试使用大型语言模型提供更好的体验时会发生什么？这是一个好问题。

众所周知，评估和比较 LLM 是棘手的。基准数据集可能难以获得，BLEU 等指标也不完美。但这些主要是学术问题：当将 LLM 纳入生产项目时，行业数据团队是如何应对这些问题的？

在我作为对话 AI 工程师的工作中，我正是这样做的。这就是我最近在数据科学会议上成为焦点，发表了（乐观地命名）的演讲，“没有基线？没有基准？没问题！”今天的文章是对这次演讲的回顾，其中包括：

评估一个不断发展的、基于 LLM 的 PoC 与工作聊天机器人之间的挑战
我们如何在 PoC 到生产过程中不同阶段使用不同类型的测试
不同测试类型的实际优缺点

无论你是数据领导者、产品经理，还是自己深入基层构建基于 LLM 的解决方案，我都希望我能让你至少避免我们犯的一些错误。所以，无需多言，让我们开始吧。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/154db26ac60ef84745aed67fed1749de.png

我们聊天 AI 的当前状态以及我们想要达到的目标。图片来源（所有图片）：作者提供

设置场景

我的公司——一家大型电信公司——已经拥有一些相当先进的语音和文本对话 AI 系统，包括一个多语言聊天机器人，每天帮助数千名客户解答问题、处理端到端用例，并将客户转移到真实客服。我们对此感到非常自豪，但我们知道通用人工智能和 LLM 可以帮助我们使其更好，并以更可扩展的方式实施这些改进。

我们的愿景是打造一个能够处理整个对话上下文，以及公司和客户数据，根据定义的业务流程提供多样化用例的聊天机器人。它应该建立在允许我们构建用户与系统之间受控交互的框架之上——一种所谓的“轨道”方法——并且能够轻松添加新的用例，以持续改进客户体验。

我们想要的与我们所拥有的

听起来很棒，但我们究竟该如何构建它呢？我们希望以测试驱动、敏捷，并快速获取反馈，基于明确定义的关键绩效指标（KPIs）做出设计决策。但如何？当我们有：

没有基准：对于任何进行类似操作的公司来说，这个问题在定义上就是独特的。没有其他机器人服务于相同的客户，针对相同的产品和服务，如我们。这意味着：没有基准数据来测试。
没有基线：我们也将我们的工作进度机器人与一个经过多年迭代的、正在运行的聊天机器人进行比较，这使得任何早期阶段的比较都显得非常不公平（当我们告诉利益相关者我们项目的价值时，当然旧机器人有更高的自动化率？！）我们的新解决方案也与前辈完全不同，因此我们需要一种全新的方式来测试它。

新的前进方式

这确实很棘手，但通过大量的尝试和错误，我们找到了对我们有效的一个以测试驱动的方案。它侧重于三个关键过程：

内部测试
顾客试用
“模拟”

现在我们来检查每种测试类型的优点、缺点和可操作的收获。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/fd30af01407891809f0cd6d1820bdeca.png

内部团队测试的利弊混合意味着需要与其他测试类型结合。

内部测试：

工作原理：

目前，机器的不同部分由不同的领域团队实现：计费团队构建计费用例，如支付扩展，管理员团队实现密码重置等。在内部测试中，每个团队根据他们实现的用例定义场景。例如，“你是客户 1234，你想延长你的支付期限。”这些场景包括所谓的“快乐路径”，它描述了客户与机器人之间成功互动可能的样子。来自其他团队的团队成员假装成客户，并尝试使用机器人完成任务。他们做笔记，并为每个场景评分，最后，所有团队审查他们场景的分数，并与整个团队分享改进意见。

优点：

关键好处是，团队对我们公司以及机器人如何工作有足够的通用领域知识，能够探测边缘情况（毕竟，问题就隐藏在这里）。然而，由于测试人员没有自己实现用例，他们不会无意中“作弊”，使用在开发过程中实施者心中所想的相同措辞。这有助于我们识别那些在遇到客户请求的不寻常措辞时崩溃的用例。

内部测试还帮助我们为顾客测试（接下来）做准备，因为它揭示了即使在最直接的客户互动中，也可能存在多样性和混淆的空间。

缺点：

这种测试是手动且耗时的，这意味着我们只能测试少量场景。它也是主观的，容易产生误解：评估者有时甚至误解了快乐的路径，从而错误地判断输出。

经验教训：

对齐问题不仅仅是 LLMs（大型语言模型）的问题：我们的第一轮内部测试采用了一个简单的评分标准：差-好-优秀。我们发现之后，有些人是根据机器人是否坚持快乐的路径来评分的，而有些人则是根据客户体验来评分的。例如，如果场景旨在触发某些逻辑步骤，但机器人反而返回了一个高质量的 RAG1答案，那么一些评分者会惩罚机器人，而另一些人会赞扬它。因此，我们了解到我们需要一个评分系统，既能捕捉机器人的“行为”，也能捕捉机器人的质量。这样，如果机器人“行为不当”，但产生了更好的体验，我们就可以做出反应：重新思考我们的实现，并检查我们对客户期望的理解中是否存在误解或错位。

不要忘记定义你的测试输出：我们的第一轮测试也揭示了我们需要就如何编写有用的注释达成一致，否则人们会错过重要细节，或者记录下模糊不清的笔记，之后无法理解。我们还需要就如何最好地保存聊天记录达成一致：有些人复制了日志输出，几乎过于冗长而无法使用，而有些人只是截图了用户界面，之后无法以任何自动方式搜索或处理。我们没有提前对这些问题进行头脑风暴，之后在难以管理的测试输出中付出了代价。

可操作要点：

定义一个清晰、精确的评价方案：我们制定了一个包含三个指标的评价矩阵，包括它们可以取的确切值，以及如何应用它们的指南。这使得测试者更容易测试，团队在之后更容易汇总结果。目标？最大化的学习；最小化的评估者工作量。

良好的数据管理：对我们来说，这意味着一些小事情，比如：添加测试用例 ID，以指明特定的场景和测试者，自动捕获聊天记录、日志和机器人后台调用的步骤，并尝试使用 Zephyr 测试管理工具，它提供了一种更结构化的方式来定义、测试和重新测试不同的场景。

客户测试：

工作原理：

我们邀请了客户和非客户到我们的办公室，让他们尝试使用机器人完成任务。这些任务与之前描述的场景类似——例如尝试延长他们的付款截止日期——但测试者没有被告知任何快乐的路径，也没有被告知可以期待什么。他们被记录下来，并鼓励他们在工作时大声说出自己的想法，分享他们的期望和印象，同时等待机器人的回应。

优点：

拥有一个多样化的参与者组合会导致各种意想不到的行为。他们与机器人的互动方式帮助我们了解客户对延迟（LLMs 的一个主要头痛问题！）的容忍度，并揭示了客户对技术的态度。例如，一些测试者，包括年轻的技术爱好者，对使用机器人完成任务表现出惊人的谨慎和怀疑，并表示在没有额外书面确认的情况下不会信任结果。

缺点：

客户测试的组织和执行非常耗时：参与者健谈且/或反应慢，所以我们每次只能测试两到三个场景。如此小的样本量意味着我们还得小心异常反馈：如果有人强烈讨厌某事物，这并不意味着它绝对不可行。

再次，确定测试观察者应该记录哪些内容也是一个挑战，我们意识到太晚，我们应该就哪些方面对提取可操作见解最有用达成一致。

最后，尽管我们告诉参与者我们的机器人是一个裸骨 POC（原型），他们仍然抱怨缺少他们在 ChatGPT 和类似工具中看到的某些功能。虽然这很有趣，但我们觉得这让他们分心，没有注意到他们可能给我们提供的其他反馈。

经验教训：

客户正在以意想不到的方式从 LLMs（大型语言模型）中学习…：例如，有使用 ChatGPT 等工具经验的客户能够流畅地以对话方式写作，并期望机器人能够处理这些内容。缺乏经验的测试者则以“关键词搜索”风格写作，担心否则会混淆机器人。还有一些熟悉 LLMs 的年轻参与者故意使用这种关键词风格，希望机器人能够以类似的简洁方式回应。这是一种完全出乎意料且富有创造性的尝试，旨在操纵机器人，基于对 LLMs 可以以不同风格响应的理解。这证明我们的系统将需要能够应对多种类型的交互，可能需要调整其行为以适应。

**客户不希望以你可能会期望的方式做事：**例如，尽管行业对 LLMs 和“一切对话化”感到欢欣鼓舞，但我们的测试参与者对这一前景并不那么兴奋。在某些情况下，例如当被要求选择他们希望延迟付款的发票时，他们说他们宁愿使用按钮来选择，因为“这比打字快”。

这是一次相当现实的打击，提醒我们不可能取悦所有人。我们有时会收到来自不同参与者的针对同一任务的完全相反的反馈。这在构建任何类型的消费产品时都是一个挑战，但至少为了自己的精神健康，记住这一点是好的。

可操作要点：

设计原则是无价的：……至少对于我们这样的实验性项目来说是这样。因此，我们将观察者反馈整理成一套通用设计原则。例如，我们有时感觉机器人过于紧密地遵循我们的业务逻辑，忽略了测试参与者提供的应该影响流程的上下文线索。因此，我们制定了一个原则，即我们的机器人在响应时始终应优先考虑对话上下文。通过明确表述这一点，它可以帮助我们在开发过程中进行指导，例如包括未来的内部测试和故事接受标准。

模拟：

工作原理：

我们有一个历史聊天交互的标注数据集，其中包括客户的话语、由现有系统触发的动作、我们分类器检测到的领域，以及后来添加的地面真实领域标签。在每一个冲刺周期，我们将这些客户的话语通过我们最新的工作进展聊天机器人，以测试两个方面。

首先，自动化率：新机器人触发端到端用例的频率与“T2A”（转接到呼叫中心代理）相比有多频繁？这与现有实时系统的自动化率相比如何？其次，分类精度如何？我们发现了一种衡量这种精度的方法，尽管这两个机器人完全不同。因此，尽管新机器人实际上并不进行领域检测，但我们可以将新机器人触发的命令映射到生产机器人使用的领域标签上，从而实现苹果对苹果的比较。

对于剩余的评估，我们将测试话语和工作进展聊天机器人的响应分配给领域团队，然后他们手动审查其质量。这听起来可能像是一大堆工作，但我们已经找到了使事情更快更简单的方法。例如，如果机器人的响应是“修复的”（意味着它从未被 LLM 重新措辞），那么一旦评估者将该响应标记为“准确”，某些其他指标将自动填写。这加快了流程，减少了决策疲劳，并有助于确保评估者的高质量和一致性。之后，我们汇总评估分数，并创建故事来解决我们观察到的任何特定问题。这些分数也直接与我们的开发路线图中的关键绩效指标（KPIs）相联系，使我们能够确定我们对最新的更改是否满意，并将进展情况传达给更广泛的利益相关者。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/5567094160a0278f81c4722eaf414189.png

模拟：我们聊天机器人开发流程的核心组成部分。

优点：

我们的方法比其他测试类型更具可扩展性。尽管我们还有很多需要改进的地方，中间仍然有一个手动评估步骤，但我们通过编写高质量的代码，以生产风格的“管道”来优化整体流程，投入了大量努力：将言语通过新机器人运行，准备手动评估的响应，并在之后计算结果。模拟也是定量的，而不仅仅是定性的。我们的大型数据集（约 1000 个言语）被采样以反映生产中用例域的典型分布。这更真实地代表了客户与我们交谈的方式和他们遇到的问题。

缺点：

这很昂贵，因为有很多 LLM 调用，更重要的是，注释者的工作量。另一个问题是，自然语言答案没有基准。这使得自动化评估变得复杂，即使是手动评估也是主观和模糊的。

但更大的问题是，我们无法测试多轮言语。我们将客户的第一次言语传递给我们的新机器人，除非它以非常相似的方式回答（理想情况下不会这样），客户的以往第二次言语将不再有意义。我们可以尝试让一个 LLM 扮演客户并与我们的新机器人聊天，但这将非常昂贵，并且不是一个特别现实的测试，因为我们的客户有不同于 ChatGPT 及其它数据训练的说话风格、方言和问题。

第一个言语问题的连锁反应是，我们无法测试像对话修复这样的东西，这是指在聊天过程中客户改变主意的情况。因此，我们还不能全面了解机器人在整个对话中的行为。还有一个“登录障碍”，对于大多数第一次言语，适当的机器人响应是让客户登录。我们的工作进度机器人通常能正确处理这个问题，但这只是一个简单的测试，并不能教会我们太多。

经验教训：

**频繁且尽早的沟通对于测试人员至关重要：**我们的评估会议是现场小组努力的结果，评估者会分享任何棘手的言语-反应对，以便获得对如何评分的第二意见。这有助于解决歧义并确保一致性。我们还记录了棘手的案例，并附在我们的评估指南中，使未来的评估更快、更一致。这也有助于我们跟踪我们在以令人满意的方式实施用例方面真正遇到困难的地方。

可操作的要点：

不同测试类型的混合至关重要：除了这里描述的测试类型外，我们计划尝试员工测试：让来自其他部门的同事尝试他们能想到的任何场景（而不是像我们内部测试中使用的特定场景）来使用我们的工作机器人。鉴于像呼叫中心代理这样的员工知道客户通常如何与我们沟通，这应该会为我们提供大量、多样化和更现实的测试结果。使用类似谷歌表单的工具收集反馈也将既便宜又容易。

我们还打算尝试一些自动化的评估方法，例如 RAGAS，这是一个包含 LLM 答案质量指标的套件，其中一些指标是通过其他 LLMs 进行评估的。当然，我们不得不权衡成本与可靠性和便利性。但至少对于机器人的 RAG 部分，我们认为值得一试。