news 2026/5/30 18:47:02

LLM生成文本每次是把之前所有的token都输入,还是只输入上一个token?

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
LLM生成文本每次是把之前所有的token都输入,还是只输入上一个token?

LLM生成文本时,是自回归地生成。那每次是把之前所有的token都输入,还是只输入上一个token?

答:在逻辑层面上,是输入“之前所有的token”;但在物理运算层面,我们通过一种技术手段避免了重复计算。

1. 逻辑层面:为什么需要“全量输入”?

LLM(如 GPT 系列)基于Transformer Decoder架构。为了预测下一个词,模型必须理解上文的语境。

如果只输入“上一个 token”,模型就像一个只有极短记忆的人,它知道当前的词,但不知道之前的逻辑。例如:

  • 上文:“巴黎是法国的…”
  • 当前输入:“的”
  • 逻辑:模型需要看到“巴黎”、“是”、“法国”才能准确预测出“首都”。

因此,在自回归生成(Autoregressive Generation)的定义中,每一步生成的概率公式如下:

P ( x t ∣ x 1 , x 2 , . . . , x t − 1 ) P(x_t | x_1, x_2, ..., x_{t-1})P(xtx1,x2,...,xt1)

这代表第t tt个词的产生,取决于前面所有词的序列。


2. 物理层面:KV Cache(键值缓存)技术

虽然逻辑上需要全量信息,但如果每次都把成千上万个词重新通过模型计算一遍,效率会极其低下(计算量呈平方级增长)。

为了解决这个问题,现代 LLM 使用了KV Cache技术:

  • 只“计算”最新 Token:实际上,每一轮推理中,只有最新生成的那个 token 会经过完整的神经网络计算。
  • 缓存旧信息:之前所有 token 的计算结果(具体为 Attention 机制中的 Key 和 Value 向量)已经存在显存里了。
  • 拼接与注意力:模型通过将“新生成的 KV”与“缓存的旧 KV”进行拼接,让新 token 能够与历史信息产生“注意力(Attention)”连接,从而得出预测结果。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/28 15:02:10

支付宝支付 报错 invalid [default store dir]: /tmp/

支付宝SDK报错 invalid [default store dir]: /tmp/ 解决方法 这个错误主要是出现在windows上面,因为路径错误而导致的。 解决方法是在SDk里新建一个tmp文件夹,然后打开AopSdkl.php将18行中的 【define("AOP_SDK_WORK_DIR", "/tmp/&quo…

作者头像 李华
网站建设 2026/5/30 9:16:14

2025最新大模型面试经验汇总+全套学习资源,小白到大神的进阶之路

新大模型面试经验汇总全套学习资源,小白到大神的进阶之路 文章汇总了多家科技公司的大模型(LLM)相关面试经验,包括字节跳动、网易伏羲、好未来等公司的面试问题和回答。同时提供了一套系统的大模型学习路线图,从基础概念理解到API应用开发&a…

作者头像 李华
网站建设 2026/5/28 22:37:08

【大学院-筆記試験練習:线性代数和数据结构(16)】

大学院-筆記試験練習:线性代数和数据结构(16) 1-前言2-线性代数-题目3-线性代数-参考答案4-数据结构-题目5-数据结构-参考答案中文解释(题意)日语答案(1)(2)(…

作者头像 李华
网站建设 2026/5/28 15:01:46

基于stm32的便携式voc气体检测仪设计

目录硬件设计软件设计功能实现应用场景源码文档获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!硬件设计 STM32微控制器作为核心处理器,通常选择STM32F103系列,因其具备丰富的外设接口和低功耗特性。传感器模块选用高精度…

作者头像 李华
网站建设 2026/5/28 15:02:09

Golang pprof与缓存性能优化实战

Golang pprof与缓存性能优化实战 关键词:Golang pprof、性能分析、缓存优化、堆内存分析、CPU采样、内存泄漏、缓存命中率 摘要:在高并发系统中,缓存是提升性能的“加速器”,但缓存本身也可能成为新的瓶颈。本文将以“医生看病”的…

作者头像 李华
网站建设 2026/5/28 15:01:42

亲测BSHM人像抠图镜像,效果惊艳真实体验分享

亲测BSHM人像抠图镜像,效果惊艳真实体验分享 最近在做一批电商商品图的背景替换,需要把真人模特从各种复杂场景中干净利落地抠出来。试过好几款开源模型——MODNet跑得快但头发边缘毛躁,U2-Net细节好却慢得像在等咖啡凉透,Robust…

作者头像 李华