news 2026/5/23 18:51:07

8、词嵌入与循环神经网络技术解析

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
8、词嵌入与循环神经网络技术解析

词嵌入与循环神经网络技术解析

1. 困惑度与语言模型基础

在语言模型中,对一个“示例”进行建模,本质上是为可能出现的下一个单词分配概率。因此,训练示例的数量等同于训练语料库中的单词数量。相较于讨论每个示例的平均损失,我们更关注每个单词的平均损失。为了更直观地衡量模型性能,我们不直接输出每个单词的平均损失,而是将其作为指数对自然常数 $e$ 进行幂运算。

对于一个包含 $|d|$ 个单词的语料库 $d$,若总损失为 $x_d$,则输出的公式为:
[f(d) = e^{\frac{x_d}{|d|}}]
这个值被称为语料库 $d$ 的困惑度。困惑度具有直观的意义,平均而言,预测下一个单词就相当于猜测具有相应面数的公平骰子的掷出结果。例如,如果语料库的词汇量大小为 10,000,且初始所有参数都接近零,那么第一个示例的 10,000 个对数几率(logits)均为零,所有概率均为 $10^{-4}$,此时困惑度恰好等于词汇量大小。

随着训练的进行,困惑度会逐渐降低。以一个词汇量约为 7,800 个单词的特定语料库为例,在使用约 106 个单词的训练集进行两个训练周期后,开发集的困惑度约为 180。在配备四个 CPU 的笔记本电脑上,每个周期的训练大约需要 3 分钟。

2. 改进前馈语言模型

提升语言模型性能有多种方法。例如,在之前的实践中,添加一个隐藏层(两层之间带有激活函数)能将 Mnist 数据集的识别准确率从 92% 提高到 98%。在当前的语言模型中,添加隐藏层可将开发集的困惑度从 180 降低到约 177。

不过,最直接有效的提升困惑度的方法是从二元语言模型过渡到三元语言模型。在之前的模型中,

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/22 17:42:16

14、无监督神经网络模型中的自动编码器详解

无监督神经网络模型中的自动编码器详解 在无监督神经网络模型中,自动编码器(AE)是一类重要的模型,它包括基本的自动编码器、卷积自动编码器和变分自动编码器等不同类型,下面将对这些类型进行详细介绍。 基本自动编码器 基本自动编码器在处理图像时,假设输入图像大小有…

作者头像 李华
网站建设 2026/5/19 12:18:39

Realtek 8192FU无线网卡在Linux系统上的完美部署指南

Realtek 8192FU无线网卡在Linux系统上的完美部署指南 【免费下载链接】rtl8192fu Realtek 8192FU Linux USB无线网卡驱动 项目地址: https://gitcode.com/gh_mirrors/rt/rtl8192fu 还在为Linux系统无法识别Realtek 8192FU USB无线网卡而烦恼吗?🤔…

作者头像 李华
网站建设 2026/5/13 9:09:08

OpenLRC终极指南:5步实现语音到多语言字幕的完整解决方案

OpenLRC终极指南:5步实现语音到多语言字幕的完整解决方案 【免费下载链接】openlrc Transcribe and translate voice into LRC file using Whisper and LLMs (GPT, Claude, et,al). 使用whisper和LLM(GPT,Claude等)来转录、翻译你的音频为字幕文件。 项…

作者头像 李华
网站建设 2026/5/19 11:39:15

MalwareBazaar恶意软件分析工具集实战指南

MalwareBazaar恶意软件分析工具集实战指南 【免费下载链接】malware-bazaar Python scripts for Malware Bazaar 项目地址: https://gitcode.com/gh_mirrors/ma/malware-bazaar 项目核心价值定位 MalwareBazaar工具集为网络安全研究者和威胁分析师提供了强大的恶意软件…

作者头像 李华
网站建设 2026/5/23 15:51:50

Rclone高级功能实战教程:企业级存储管理完全指南

Rclone高级功能实战教程:企业级存储管理完全指南 【免费下载链接】rclone 项目地址: https://gitcode.com/gh_mirrors/rcl/rclone Rclone作为业界领先的云存储同步工具,其高级功能模块为企业用户提供了完整的存储解决方案。无论您是新手还是资深…

作者头像 李华
网站建设 2026/5/23 15:58:08

Multisim实时访问用户库:完整示例

Multisim实时访问用户库:从原理到实战的完整指南 你有没有遇到过这样的场景? 项目紧急,要复用一个之前做过的电源模块,翻遍本地库却找不到那个精心建好的LM5116模型;或者团队里新人刚上手,总是用错封装、…

作者头像 李华