news 2026/5/7 21:00:00

NLP深度学习的四步公式详解

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
NLP深度学习的四步公式详解

简介

在过去六个月中,一种强大的神经网络新方法已为自然语言处理领域整合成型。这种新方法可以概括为一个简单的四步公式:嵌入(Embed)、编码(Encode)、注意力机制(Attend)、预测(Predict)。本文将解释这种新方法的组成部分,并展示它们在两个近期系统中的结合方式。

深度学习处理文本的四步策略

词嵌入表示,也称为“词向量”,现已成为应用最广泛的自然语言处理技术之一。词嵌入让你可以将单个词视为相关的意义单元,而非完全独立的ID。然而,大多数NLP问题需要理解更长的文本片段,而不仅仅是单个词语。现在有一个简单且灵活的解决方案正在广泛的问题上取得优异性能。将文本嵌入为一系列向量后,使用双向循环神经网络将这些向量编码成一个句子矩阵。此矩阵的行可以理解为词元向量——它们对词元在句子中的上下文敏感。拼图的最后一块称为注意力机制,它允许你将句子矩阵缩减为一个句子向量,以便进行预测。以下是其工作原理。

第一步:嵌入

嵌入表将长、稀疏的二进制向量映射为短、密集的连续向量。例如,假设我们接收的文本是ASCII字符序列。有256个可能的值,因此我们可以将每个值表示为256维的二进制向量。字母“a”的值将是一个全0向量,但在第97列有一个1,而字母“b”的值将是一个全0向量,在第98列有一个1。这称为“独热”编码方案。不同的值获得完全不同的向量。

大多数神经网络模型首先将文本分词为词语,并将词语嵌入为向量。其他模型通过其他信息扩展词向量表示。例如,除了词语ID,向前传递词性标记序列通常很有用。然后可以学习标记嵌入,并将标记嵌入与词嵌入连接起来。这允许你将一定量的位置敏感信息推入词语表示中。然而,有一种更强大的方法可以使词语表示具有上下文特定性。

第二步:编码

给定一个词向量序列,编码步骤计算一个表示,我称之为句子矩阵,其中每一行代表每个词元在句子其余部分上下文中的含义。

用于此目的的技术是双向循环神经网络。LSTM和GRU架构都已被证明对此效果良好。每个词元的向量由两部分计算:一部分通过前向传递,另一部分通过后向传递。为了获得完整向量,我们只需将两者拼接在一起。以下是计算内容:

defencode(fwd_rnn,bwd_rnn,word_vectors):fwd_out=ndarray((len(word_vectors),fwd_rnn.nr_hidden),dtype='float32')bwd_out=ndarray((len(word_vectors),bwd_rnn.nr_hidden),dtype='float32')fwd_state=fwd_rnn.initial_state()bwd_state=bwd_rnn.initial_state()foriinrange(len(word_vectors)):fwd_state=fwd_rnn(word_vectors[i],fwd_state)bwd_state=bwd_rnn(word_vectors[-(i+1)],bwd_state)fwd_out[i]=fwd_state bwd_out[-(i+1)]=bwd_statereturnconcatenate([fwd_state,bwd_state])

我认为双向循环神经网络将成为那种随时间推移会显得显而易见的见解。然而,循环神经网络最直接的应用是读取文本并从中预测某些内容。我们在这里所做的是计算一个中间表示——具体来说,是每个词元的特征。关键是,我们得到的表示代表了上下文中的词元。我们可以学习到“pick up”这个短语与“pick on”有不同的含义,即使我们将这两个短语处理为单独的词元。这一直是NLP模型的一个巨大弱点。现在我们有了解决方案。

第三步:注意力机制

注意力机制步骤将编码步骤产生的矩阵表示缩减为单个向量,以便可以将其传递给标准的前馈网络进行预测。与其他缩减操作相比,注意力机制的特征优势在于它以辅助上下文向量作为输入:

通过将矩阵缩减为向量,必然会丢失信息。这就是为什么上下文向量至关重要:它告诉你哪些信息可以丢弃,以便“摘要”向量能够适应消费它的网络。最近的研究表明,注意力机制是一种灵活的技术,其新的变体可以用来创建优雅而强大的解决方案。

第四步:预测

一旦文本或文本对被缩减为单个向量,我们就可以学习目标表示——类别标签、实值、向量等。我们也可以通过使用网络作为状态机(例如基于转移的解析器)的控制器来进行结构化预测。

有趣的是,大多数NLP模型通常偏爱相当浅层的前馈网络。这意味着计算机视觉领域一些最重要的最新技术,如残差连接和批量归一化,迄今为止在NLP社区中影响相对较小。

实例一:用于自然语言推理的可分解注意力模型

自然语言推理是预测句子对类别标签的问题,其中类别代表它们之间的逻辑关系。斯坦福自然语言推理语料库使用三个类别标签:

  • 蕴含:如果第一个句子为真,则第二个句子必须为真。
  • 矛盾:如果第一个句子为真,则第二个句子必须为假。
  • 中性:既非蕴含也非矛盾。

B等人的一个有趣模型是一个顺序读取句子以构建树形结构内部表示的基于转移的模型。B等人能够达到83.2%的准确率,较之前工作有显著提升。不到六个月后,P等人提出了一个达到86.8%准确率的模型,其参数量约为B等人模型的10%。不久之后,C等人发表了一个性能更好的系统——88.3%。关键在于该模型使用新颖的注意力机制混合两个句子矩阵的方式:

关键优势在于,句子到向量的缩减操作是联合在句子上进行的,而B等人是独立将句子编码成向量。记住V的原则:

“当解决一个感兴趣的问题时,不要将解决一个更普遍的问题作为中间步骤。” —— Vladimir Vapnik

P等人将自然语言推理任务视为感兴趣的问题。他们构建模型以直接解决它,因此比那些单独编码句子的模型具有巨大优势。B等人对更普遍的问题更感兴趣,并相应地构建模型。因此,他们的模型在P等人的模型不适用的情景下很有用。例如,使用B等人的模型,你可以缓存句子向量,使得计算相似度矩阵的效率更高。

实例二:用于文档分类的层次注意力网络

文档分类是我曾经从事的第一个NLP应用。与某机构相当的某中心资助了一个项目,旨在爬取某中心网站并自动检测金融诈骗。虽然该项目有点超前于时代,但文档分类在其后近十年的大部分时间里变化出奇地小。这就是为什么我觉得Y等人最近发表的层次注意力网络模型如此令人兴奋。这是第一篇我看到真正提供了对传统词袋模型具有说服力的普遍改进的论文。

该模型接收一个文档作为输入,该文档由一系列句子组成,每个句子由一系列词语ID组成。每个句子的每个词语被单独嵌入,为每个句子产生两个词向量序列。然后序列被单独编码成两个句子矩阵。一个注意力机制然后分别将句子矩阵缩减为句子向量,这些句子向量随后被编码以生成文档矩阵。最后一步注意力机制将文档矩阵缩减为文档向量,然后传递给最终的预测网络以分配类别标签。

该模型使用注意力机制作为纯粹的缩减步骤:它学习以矩阵作为输入,并将其概括为一个向量。它通过学习两个注意力转换的上下文向量来实现这一点,这些上下文向量可以理解为模型认为最相关的词语或句子。或者,你可以将整个缩减步骤视为一个特征提取过程。在这种观点下,上下文向量只是另一个不透明的参数。

一个有趣的比较可以在Y等人的模型和卷积神经网络之间进行。两种模型都能够自动提取位置敏感特征。然而,CNN模型既不够普遍,效率也较低。对于双向循环神经网络,每个句子只需要读取两次——一次向前,一次向后。LSTM编码还可以提取任意长度的特征,因为句子上下文的任何方面都可能混合到词元的向量表示中。将句子矩阵缩减为向量的过程也简单高效。为了构建文档向量,只需再次应用相同的过程。

驱动模型准确性的主要因素是双向LSTM编码器,用于创建位置敏感特征。作者通过将注意力机制替换为平均池化证明了这一点。使用平均池化,模型在所有基准测试中仍然优于先前的最先进技术。然而,注意力机制进一步提高了所有评估的性能。我发现这特别有趣。其影响相当普遍——毕竟在很多情况下,你希望将矩阵缩减为向量以进行进一步的预测,而不需要参考任何特定的外部上下文。

下一步

已为我们的NLP库实现了一个蕴含模型,并正在开发文本分类系统的实现。还计划发布一个通用的双向LSTM模型,以便于在你的问题上使用预训练的词元向量。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/5 7:08:15

价值百万的案例:某车企Abaqus许可优化年度节省报告

价值百万的案例:某车企Abaqus许可优化年度节省报告作为一名在汽车工业领域深耕多年的结构工程技术人员,我经常会遇到关于软件授权优化的问题。很多车企在进行仿真设计时,都会采用Abaqus这样的高端有限元分析工具,而其授权费用往往…

作者头像 李华
网站建设 2026/5/7 16:12:34

毕业生的新选择:实测9款AI论文工具,这款“全能搭子”让我从选题到定稿不再愁

凌晨三点的宿舍,屏幕的光映着发涩的双眼,文档里寥寥数语与反复修改的格式标注交织成一片焦虑。 这或许是无数本科毕业生正在经历的场景——选题毫无头绪、文献浩如烟海、格式规范繁琐如天书、查重降重更是无限循环的精神内耗。 如今,AI毕业…

作者头像 李华
网站建设 2026/5/1 10:00:16

HoRain云--PHP+Redis高并发实战指南

🎬 HoRain 云小助手:个人主页 ⛺️生活的理想,就是为了理想的生活! ⛳️ 推荐 前些天发现了一个超棒的服务器购买网站,性价比超高,大内存超划算!忍不住分享一下给大家。点击跳转到网站。 目录 ⛳️ 推荐 …

作者头像 李华
网站建设 2026/5/6 21:15:51

导师推荐!继续教育必备!10款一键生成论文工具TOP10测评

导师推荐!继续教育必备!10款一键生成论文工具TOP10测评 2026年继续教育论文写作工具测评:功能与效率的深度解析 在当前继续教育日益普及的背景下,论文撰写已成为许多学员必须面对的重要任务。然而,从选题构思到文献整理…

作者头像 李华
网站建设 2026/5/2 19:19:47

2003-2025年上市公司地级市政府政绩关注度数据

数据简介 地级市政绩关注度是地级市政府工作报告中提及各个上市公司的次数。在中国特色的治理体系中,地方官员的政绩信息绝非简单的个人功过簿,而是一套深刻影响微观企业行为与宏观区域走向的“制度信号”,而政府工作报告文本正是理解中国资…

作者头像 李华
网站建设 2026/5/1 14:32:12

HoRain云--HTTP方法大全:从GET到DELETE全解析

🎬 HoRain云小助手:个人主页 🔥 个人专栏: 《Linux 系列教程》《c语言教程》 ⛺️生活的理想,就是为了理想的生活! ⛳️ 推荐 前些天发现了一个超棒的服务器购买网站,性价比超高,大内存超划算!…

作者头像 李华