news 2026/5/8 20:41:19

七.model输出介绍

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
七.model输出介绍
import torch from transformers import pipeline, AutoTokenizer, AutoModelForCausalLM model_dir = r'D:\pyprojecgt\flaskProject\langchainstudy\modelscope\gpt2-chinese-cluecorpussmall' # 创建模型和分词器 model = AutoModelForCausalLM.from_pretrained(model_dir) tokenizer = AutoTokenizer.from_pretrained(model_dir) print(model)

  • 输入处理:文本首先通过分词器转化为数字索引(如"今天"→7911921)
  • 向量化过程:数字索引通过embedding层转换为高维词向量
  • 输出特性:模型输出的是概率分布而非具体文字,需要解码转换
  • wte:词嵌入层(21128词汇表→768维向量)
  • wpe:位置编码层(1024位置×768维)
  • 维度意义:768维表示模型用768个特征描述每个词
  • 类比说明:
    • 二维空间:身高+头发长度(2个特征)
    • 三维空间:增加肤色特征
    • 768维:模型使用768个特征描述词语
    • 扩展说明:更大模型可能使用1024维词向量

为什么不能用统一的编码

  • 独特性:每个模型的词向量库都是独立训练的
  • 原因分析:
    • 模型功能特异性导致需要定制化词向量
    • 目前不存在真正的通用模型(能处理所有任务的模型)
  • 实践影响:不同模型需要使用配套的分词器和词表

主要现在造不出来通用模型

千问模型按任务与语料特性区分的原因
  • 技术限制:
    • 硬件瓶颈:当前设备不足以支撑真正的通用模型
    • 性能权衡:单一模型难以在所有任务上都达到最优表现
  • 设计哲学:
    • 任务适配:根据编程、数学、聊天等不同任务需求定制模型
    • 语料优化:各模型使用特定领域数据进行专项训练
  • 实现差异:
    • 词向量库:不同模型拥有独立的vocab编码和tokenizer
    • embedding:词向量库根据领域语料进行针对性训练
    • 参数量:从Qwen3-3B到235B参数,按需配置模型规模
输出层分析
  • 基础组件:任何模型都包含词向量层和位置编码层,这是模型处理输入数据的第一阶段。
  • 核心结构:真正的模型层次从ModuleList开始,该部分包含模型的主要计算模块。
  • 层数要求:GPT2模型要求最低层数为12层,少于12层的模型将无法有效工作。

输出层维度为21128,与词汇表大小完全对应。

文本生成的本质:分类任务与概率输出
  • 核心机制:文本生成模型的本质是一个分类任务,输出的是词汇表中每个词被选中的概率值。
  • 输出形式:模型每次预测都会输出21128个概率值,对应词汇表中的21128个可能的词。

白 可以填什么 白色 白天

文本生成的逻辑:基于概率的填空题
  • 工作原理:以"白"字为例,后续可能接"色"(概率0.4)、"天"(概率0.4)、"大"(概率0.1)、"下"(概率0.1)等词。
  • 选择策略:模型会选择概率最高的词作为输出,如"白色"和"白天"都是合理选择,而"白大"则概率较低。
  • 实现方式:通过不断选择当前概率最高的词进行拼接,完成整个文本的生成过程。

temperature参数作用:控制文本生成的随机性,值越低生成的文本越保守(倾向于选择概率较高的词),值越高生成的文本越多样(倾向于选择更多不同的词)。典型值为0.7。

  • 随机性表现:每次生成内容不同是因为模型不是直接选择概率最大的词,而是通过temperature参数进行概率采样。
  • 极端情况:当temperature=0时,模型会固定选择概率最大的词,导致提示词不变时输出完全相同。但当前API版本不允许temperature=0,需改用do_sample=False实现固定输出。
  • top_k机制:限制模型每一步仅从概率最高的k个词中选择下一个词(如k=50表示只考虑前50个候选词),避免选择低概率词导致质量下降。
  • 参数协同:temperature=0.7表示从前50个token中以0.7的随机性采样,既保证质量又避免重复。
  • 重复问题:小模型即使使用参数控制仍可能出现"色色色..."这类重复,这是模型理解能力不足导致的固有缺陷。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/8 2:28:18

【课程设计/毕业设计】基于微信小程序+SpringBoot的线上超市管理系统设计和实现基于小程序+springboot商城系统设计与实现【附源码、数据库、万字文档】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/5/7 19:40:42

计算机毕业设计|基于springboot + vue员工信息管理系统(源码+数据库+文档)

员工信息管理 目录 基于springboot vue员工信息管理系统 一、前言 二、系统功能演示 三、技术选型 四、其他项目参考 五、代码参考 六、测试参考 七、最新计算机毕设选题推荐 八、源码获取: 基于springboot vue员工信息管理系统 一、前言 博主介绍&…

作者头像 李华
网站建设 2026/5/7 19:41:09

基于springboot + vue药店管理系统(源码+数据库+文档)

药店管理 目录 基于springboot vue网上订餐系统 一、前言 二、系统功能演示 三、技术选型 四、其他项目参考 五、代码参考 六、测试参考 七、最新计算机毕设选题推荐 八、源码获取: 基于springboot vue药店管理系统 一、前言 博主介绍:✌️大…

作者头像 李华
网站建设 2026/5/7 19:41:29

如何解决“此网站无法提供安全连接”错误

在浏览网页时,用户常常会遇到一个让人困扰的错误提示:“此网站无法提供安全连接”。这个错误通常意味着浏览器无法与目标网站建立安全连接,从而导致无法访问该网站。出现这一问题的原因可能有很多,影响因素也不尽相同。本文将带您…

作者头像 李华
网站建设 2026/5/7 19:41:16

丰田工机PCWIN SAFE中文版PLC编程软件详解与14年应用体验

丰田工机安全plc编程软件pcwin safe 14而且还是中文版的,绝对是难得的资源 toyopuc兄弟们,碰到中文版的丰田工机安全PLC编程软件PCWIN Safe 14可真是捡到宝了!这玩意儿在工控圈就跟大熊猫似的稀有,尤其是自带中文操作界面&am…

作者头像 李华
网站建设 2026/5/3 13:03:17

三相异步电机变频调速系统+矢量控制设计仿真[仿真+报告】(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码

三相异步电机变频调速系统矢量控制设计仿真[仿真报告】(设计源文件万字报告讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码文档设计内容:T型等效电路模型参数计算、异步电机转子磁链的电流模型或电压模型的计算、画出异步电机矢量控制变频调速控制…

作者头像 李华