过去一年,越来越多团队开始把 LLM 和 Agent 应用真正放到生产环境中:AI 客服、企业知识库、销售助手、代码助手、自动化工作流、内部 Copilot……但当这些应用从 Demo 走向真实业务后,一个问题会迅速变得明显:
AI 应用不是跑起来就结束了,真正困难的是上线后如何观测、调试、评估和治理。
一次回答为什么变慢?
一次 Agent 任务失败在哪个工具调用?
Token 成本为什么突然升高?
哪个模型调用效果最好?
用户会话质量如何评估?
线上异常如何快速复盘?
传统日志很难回答这些问题。于是我们开源了AgentInsight SDK,希望为 LangChain、OpenAI 以及更多 LLM/Agent 应用提供一套轻量、标准、可扩展的可观测接入方式。
AgentInsight 是什么
AgentInsight 是一个面向企业级 LLM/Agent 应用的智能可观测平台,帮助开发者和团队采集、分析和治理 AI 应用运行过程中的关键数据。
通过 AgentInsight SDK,你可以采集:
- Trace 链路数据
- LLM 模型调用记录
- Token 消耗
- 响应耗时
- 异常错误
- Agent 工具调用
- 会话评分与评估数据
- Prompt 与上下文信息
这些数据会被发送到 AgentInsight 平台,用于研发仪表盘、成本分析、模型使用分析、错误诊断、会话分析、智能预警和 AI 分析助手等场景。
为什么需要 AI Agent 可观测
很多 Agent 应用在开发阶段看起来都能正常运行,但一旦进入生产环境,复杂度会迅速上升。
一个真实 Agent 任务可能包含:
- 多轮模型调用
- 多个工具调用
- RAG 检索
- Prompt 模板拼接
- 外部 API 请求
- 多步骤推理与决策
- 用户上下文传递
如果只看最终输出,很难知道中间到底发生了什么。
AgentInsight 希望解决的就是这个问题:
让每一次 AI 调用、每一段 Agent 链路、每一次异常和每一笔 Token 成本都可追踪、可分析、可优化。
开源 SDK 支持什么
目前我们开源了两个 SDK 仓库:
- Python SDK:
AgentInsight/agentinsight-sdk-python - TypeScript SDK:
AgentInsight/agentinsight-sdk-ts
SDK 基于 OpenTelemetry 思路设计,支持和现有 AI 应用框架集成。
Python SDK 支持:
@observe装饰器自动追踪函数调用- OpenAI 调用观测
- LangChain 集成
- Trace / Span 数据采集
- Token 与耗时记录
- 错误捕获
- 多项目隔离
TypeScript SDK 支持:
- OpenAI SDK 包装
- LangChain Callback 集成
- OpenTelemetry SpanProcessor
- Token 成本分析
- Prompt 管理
- 数据脱敏
- Node.js / Web 场景扩展
一个简单例子
Python 中可以通过@observe快速追踪函数:
fromagentinsightimportobserve@observe(as_type="agent")defrun_agent(query:str)->str:plan=plan_task(query)result=execute_task(plan)returnresult@observe(as_type="chain")defplan_task(query:str)->str:returnf"Plan for:{query}"@observe(as_type="tool")defexecute_task(plan:str)->str:returnf"Executed:{plan}"这样一次 Agent 执行过程中的 agent、chain、tool 调用关系就可以被记录下来,后续在 AgentInsight 平台中进行链路分析和问题定位。
我们关注的不只是 Trace
AgentInsight 不只是一个 Trace 查看器。
在企业场景里,AI 应用上线后还会面临更多治理问题:
- 哪个项目 Token 成本最高?
- 哪个模型调用最频繁?
- 哪类请求最容易失败?
- 哪些 Trace 耗时异常?
- 哪些用户会话质量较低?
- 不同团队的 AI 使用情况如何?
- AI 应用是否真的产生了业务价值?
因此 AgentInsight 的目标是把研发可观测、成本治理、质量评估和业务分析放到同一个体系里。
和 Langfuse / LangSmith 的关系
Langfuse、LangSmith 等工具已经很好地推动了 LLM 可观测的发展。AgentInsight 也受到这些优秀项目的启发。
我们的重点会更偏向:
- 国内企业 AI 应用落地场景
- LangChain / OpenAI / OpenTelemetry 生态兼容
- 项目级、团队级成本归因
- 企业级权限、审计和预警
- AI 使用渗透率与业务价值看板
- 中文团队更容易接入和使用的体验
我们希望 AgentInsight 能成为中国企业和开发者构建生产级 Agent 应用时,一个实用、轻量、可扩展的观测基础设施。
欢迎试用和反馈
如果你正在开发或运营 LLM / Agent 应用,尤其遇到过这些问题:
- Agent 调试困难
- 线上错误难定位
- Token 成本不可控
- 模型调用质量难评估
- 多步骤调用链路难复盘
- 企业内部 AI 应用缺少统一监控
欢迎试用 AgentInsight SDK,也欢迎给我们提 Issue、建议或使用场景。
GitHub 搜索:
AgentInsight agentinsight-sdk-python AgentInsight agentinsight-sdk-ts或者访问:
https://github.com/AgentInsight/agentinsight-sdk-python https://github.com/AgentInsight/agentinsight-sdk-ts https://agentinsight.goldebridge.com我们相信,AI 应用进入生产环境后,可观测会从“可选项”变成“基础设施”。
AgentInsight 会持续围绕 LLM / Agent 应用的 Trace、成本、质量、评估和治理能力演进,也欢迎更多开发者一起参与共建。