Sciverse 官网:https://sciverse.space Sciverse Docs:https://sciverse.space/docs
关键词:科学 Agent、证据链、可验证回答、Sciverse、RAG
很多团队把科学 Agent 做成了“会说话的检索器”: 能返回一些文献标题,但一旦追问“这句话证据在哪”,就很难稳定给出可复核依据。
这篇文章给一个工程可落地的方案:把科学检索固定为 5 个步骤,先做证据,再做生成。
一、为什么传统 Top-K 在科学场景不够
传统流程:向量检索 Top-K -> 拼接上下文 -> LLM 总结。
问题在于:
- Top-K 返回的是“相关文档块”,不是“可支持结论的证据块”。
- 缺少明确命中位点(offset)时,引用难追溯。
- 模型倾向把“可能正确”组织成“看起来确定”的结论。
科学场景对“可验证性”的要求远高于通用问答,所以检索链路必须可审计。
二、证据五件套:推荐调用顺序
建议固定为:
list_catalog:先看数据源能力和字段search_papers:按年份/学科/作者等做结构化收敛semantic_search:对问题本身做语义命中read_content:围绕命中点扩展原文上下文get_resource:补图表/资源证据(需要时)
核心原则:
- 结构化先缩范围,语义后定位,原文再补证据。
- 生成阶段只消费证据层,不直接消费“粗召回结果”。
三、工程实现模板(推荐)
把系统拆成三层:
- 检索层:
search_papers + semantic_search - 证据层:
read_content + get_resource - 生成层:LLM 只基于证据输出
建议在服务侧加入两个硬约束:
- 没证据片段的结论,不进入最终回答。
- 每个关键结论附“文献标识 + 证据摘要”。
四、上线前质量门禁
至少要做以下检查:
- 同问多次,引用来源是否稳定
- 追问“依据是什么”时,是否能返回原文片段
- 证据冲突时,是否显式提示不确定
- 证据不足时,是否能优雅拒答
建议做一个“反向审计脚本”:随机抽 20 条回答,人工验证每条结论是否能回溯到证据。
五、常见坑与规避
坑 1:直接把检索结果交给模型自由发挥
规避:先过证据层,后给模型。坑 2:把“模型归纳”当“文献事实”输出
规避:输出结构分为“证据事实”和“模型推断”。坑 3:只追求召回率,不看证据粒度
规避:增加命中位点扩展,提升证据完整性。
结语
科学 Agent 的上限,不在于模型会写多漂亮,而在于证据链有多扎实。
把“检索”升级成“证据生产流程”,你的系统才会从 Demo 走向可上线。