news 2026/6/3 12:52:12

1.4 Agent的眼睛耳朵 语言与多模态怎么喂信息

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
1.4 Agent的眼睛耳朵 语言与多模态怎么喂信息

1.4 Agent 的「眼睛耳朵」:语言 + 多模态怎么喂信息

本节学习目标

  • 理解 Agent 如何通过「感知」获取环境信息,并区分不同感知渠道。
  • 掌握文本、语音、图像等多模态输入在 Agent 中的角色与常见用法。
  • 能设计「把环境信息整理成模型可用的输入」的简单方案。

一、感知在 Agent 中的位置

Agent 的闭环是「目标 → 感知 → 决策 → 行动 → 环境变化 → 再感知」。感知负责把「当前环境」变成大脑(LLM)能用的输入,包括:用户说了什么、历史对话、工具返回结果、当前时间、位置、以及图片/语音等。感知质量直接决定决策质量:信息不全或噪声大,模型容易误判或重复无效动作。

大脑 LLM

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/29 22:04:02

小程序计算机毕设之基于springboot的优购在线社区便利店系统小程序基于SpringBoot的社区便利店购物平台系统(完整前后端代码+说明文档+LW,调试定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/6/2 11:30:34

2025+多模态AI颠覆性突破:视觉语言模型的技术跃迁与产业重构

2025多模态AI颠覆性突破:视觉语言模型的技术跃迁与产业重构 【免费下载链接】Qwen3-VL-30B-A3B-Instruct 项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/Qwen3-VL-30B-A3B-Instruct 副标题:[跨模态推理能力][企业级部署价值] 一、技术突破…

作者头像 李华
网站建设 2026/5/28 17:04:17

Java毕设项目推荐-基于springboot的学生档案管理系统考试成绩管理、学生表现管理、奖惩信息管理、学生考勤管理、学生健康管理【附源码+文档,调试定制服务】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/5/31 3:11:48

Java毕设项目推荐-基于SpringBoot的数字化医院信息管理基于springboot的智慧医疗平台管理系统【附源码+文档,调试定制服务】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华