揭秘知识图谱与大模型的黄金组合，解决大模型幻觉问题的实战指南！-开发者社区

简介

文章介绍了知识图谱的概念及其与大模型的关系，重点讨论了知识图谱如何帮助解决大模型的"幻觉"问题。作者详细解释了RAG技术及其不同数据处理方式，并指出知识图谱在处理复杂关系问题时的优势。最后，文章建议在实际应用中可以结合关系型数据库、向量数据库和知识图谱，通过多路召回和重新排序获得更优结果，并提供了AI大模型学习资源。

中国领先的人工智能(AI)平台和服务团队，致力于推动数字转型与智能升级，通过AI技术赋能未来人才发展。

今天我们探讨两个问题:

第一，知识图谱是什么？

第二，知识图谱和大模型的关系又是什么？

一、知识图谱是什么？

我们先来看第一个问题: 知识图谱是什么？

可以看上面这个图，这个图形表达了如下信息:

张三和李四是朋友。

张三在苹果公司工作。

李四在香蕉公司工作。

苹果公司投资了香蕉公司。

这就是一个知识图谱的形象化表示。

所以我们总结一下，什么是知识图谱:

1.是一个存储信息的方法；

2.描述的是事实;

3.核心表达是实体和关系;

4.可以有多种实体，多种关系;

二、知识图谱和大模型是什么关系?

我们再来看第二个问题: 知识图谱和大模型有什么关系?

其实知识图谱在2023年之前就存在，但是在2023年大模型火了之后，再次进入大众的视野，这是为什么呢?

原因是随着大家对大模型的使用，逐渐发现大模型存在一个较大的问题——大模型幻觉，即可以理解为有些时候大模型会胡说八道，编造事实

为了减少大模型的幻觉，有很多的方法，常用的有以下5种方法/思路:

Prompt

给出准确清晰的提示词语句；

Few-shot，少样本提示。

限制内容范围

RAG，检索增强生成。

后处理

事实检查生成答案；

人工检查生成答案。

提升数据质量

预训练的数据质量；

微调的数据质量。

模型能力提升

大模型微调。

对于第二种，在RAG具体落地场景中，我们可以有不同的数据处理方式：

对于结构化的数据，比如我们Excel中的数据，用普通的关系型数据库存储即可，需要使用时直接拿来用也比较方便。

对于非结构化的数据，比如文本段落、文章、手册、FAQ这种，不太适合结构化存储，所以向量化之后存储在向量数据库中比较合适，后续使用向量检索技术也比较好用。

那我们今天说的知识图谱适合什么样的场景呢?

我们举例来说明，传统的RAG流程如下图，用户提出一个prompt，先到知识库中检索相似度高的文档内容，然后和prompt一起传给大模型，再由大模型基于输入的内容生成答案。

但是这种方法有限制，对于具体的问题解决效果比较好，相对宏观一些的问题可能效果不那么好。

例如下列2个问题:

问题1: A商品的价格是多少?

问题2: 去年技术团队的成果是什么?

对于问题1，传统RAG可能解决的比较好，如果知识库中有关于A商品价格的信息，大模型就能准确回答这个问题。

但是对于问题2，首先“技术团队”就是一个复杂问题技术团队可能下面有技术一部、技术二部.…，而其中技术一部下面有张三、李四…

如果要回答这个问题就需要先把属于技术团队的人都找出来，然后分别找到每个人的成果，再把成果汇总。

这个问题就很适合用知识图谱来解决，对于“技术团队”问题的解决，就是找寻不同实体间的关系，知识图谱记录的就是这种关系:

如上图，我们把原始文档里的内容最后聚类成如图所示的结构关系，当遇到上述的问题时，就能高效解决。

所以，用知识图谱去解决大模型的幻觉问题，有如下优势:

直观: 在上面我们就提到过，知识图谱表示的就是实体与实体之间的关系，理解起来比较直观，所以对于降低大模型的幻觉是有帮助的。

与向量文本互补: 我们在把知识变成向量存储到向量数据库中的时候，数据本身是不会消失，但是数据与数据之间的关系可能就没有了，或者被弱化了。

这个时候，我们再用知识图谱的方式，把这些知识/实体之间的关系表达出来，这样就可以和向量数据库进行一个结合。

但是，我们在实际落地RAG的过程中，并不是只能选择一种方式处理数据。

比如我们可以同时使用关系型数据库、向量数据库、知识图谱，每次用户提问之后，分别去3个地方多路召回，然后rerank重新排序，最后得到综合结果，输出给大模型。

三、在大模型时代，我们如何有效的去学习大模型？

掌握大模型技术你还能拥有更多可能性：

• 成为一名全栈大模型工程师，包括Prompt，LangChain，LoRA等技术开发、运营、产品等方向全栈工程；

• 能够拥有模型二次训练和微调能力，带领大家完成智能对话、文生图等热门应用；

• 更优质的项目可以为未来创新创业提供基石。

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向，东学一点西学一点，像只无头苍蝇乱撞，下面是我整理好的一套完整的学习路线，希望能够帮助到你们学习AI大模型。

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；
第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；
第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；
第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；
第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；
第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；
第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。