news 2026/5/30 15:01:23

百度ERNIE 4.5-VL:28B参数多模态大模型来了

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
百度ERNIE 4.5-VL:28B参数多模态大模型来了

百度ERNIE 4.5-VL:28B参数多模态大模型来了

【免费下载链接】ERNIE-4.5-VL-28B-A3B-Base-PT项目地址: https://ai.gitcode.com/hf_mirrors/baidu/ERNIE-4.5-VL-28B-A3B-Base-PT

导语:百度正式推出ERNIE 4.5-VL-28B-A3B-Base-PT多模态大模型,以280亿总参数和创新的混合专家(MoE)架构,进一步推动图文理解与跨模态推理能力的边界。

行业现状:多模态大模型正成为人工智能领域的核心发展方向,随着参数规模增长和架构创新,模型在复杂场景理解、长文本处理和跨模态交互等方面的能力持续突破。当前主流多模态模型普遍面临模态融合效率、计算资源消耗与实际应用落地之间的平衡挑战,而混合专家(Mixture of Experts, MoE)架构因其"按需激活"的特性,成为兼顾模型规模与计算效率的重要技术路径。

产品/模型亮点

ERNIE 4.5-VL-28B-A3B-Base-PT作为百度ERNIE 4.5系列的重要成员,核心亮点体现在三大技术创新:

  1. 异构混合专家架构:模型采用"28B总参数/3B激活参数"的MoE设计,包含64个文本专家和64个视觉专家(每类各激活6个),以及2个共享专家。这种异构结构通过模态隔离路由机制和专用损失函数,确保文本与视觉模态在训练中互不干扰又能相互增强,有效解决了传统多模态模型中模态竞争的问题。

  2. 高效训练与推理体系:基于PaddlePaddle深度学习框架,模型实现了异构混合并行与分层负载均衡策略,结合FP8混合精度训练和细粒度重计算技术提升训练吞吐量。推理阶段创新采用多专家并行协作和卷积码量化算法,实现4位/2位无损量化,大幅降低部署成本。

  3. 分阶段训练与模态优化:采用三阶段训练策略——先构建强大的语言理解基础,再引入视觉模态参数(包括ViT特征提取器和视觉专家),最终通过监督微调(SFT)、直接偏好优化(DPO)等技术优化特定模态性能。模型支持131072 tokens的超长上下文长度,为长文本理解和多轮对话提供基础。

该模型支持文本与视觉双模态,可广泛应用于图文内容生成、复杂场景理解、跨模态检索、智能交互系统等场景,特别是在需要深度图文推理的专业领域具有显著潜力。

行业影响:ERNIE 4.5-VL的推出进一步巩固了百度在多模态大模型领域的技术优势。28B参数规模与MoE架构的结合,既展示了模型能力的提升,又通过激活参数控制实现了计算效率的优化,为企业级应用提供了性能与成本的平衡选择。其开源特性(Apache 2.0协议)将促进学术界和产业界对多模态技术的研究与应用落地,加速相关行业的智能化转型。

结论/前瞻:ERNIE 4.5-VL-28B-A3B-Base-PT的发布标志着多模态大模型在架构设计和工程优化上的又一重要进展。随着模型能力的持续提升和部署成本的降低,多模态AI将在内容创作、智能交互、工业质检、医疗诊断等更多领域实现规模化应用。未来,如何进一步提升模态融合的深度、优化小样本学习能力以及增强模型的可解释性,将成为多模态大模型发展的关键方向。

【免费下载链接】ERNIE-4.5-VL-28B-A3B-Base-PT项目地址: https://ai.gitcode.com/hf_mirrors/baidu/ERNIE-4.5-VL-28B-A3B-Base-PT

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/28 14:13:43

HyperDown终极性能优化指南:让你的PHP Markdown解析速度翻倍

HyperDown终极性能优化指南:让你的PHP Markdown解析速度翻倍 【免费下载链接】HyperDown 一个结构清晰的,易于维护的,现代的PHP Markdown解析器 项目地址: https://gitcode.com/gh_mirrors/hy/HyperDown 还在为Markdown解析性能问题而…

作者头像 李华
网站建设 2026/5/30 20:40:45

Audio Flamingo 3:10分钟音频理解与交互革命

Audio Flamingo 3:10分钟音频理解与交互革命 【免费下载链接】audio-flamingo-3 项目地址: https://ai.gitcode.com/hf_mirrors/nvidia/audio-flamingo-3 导语:NVIDIA最新发布的Audio Flamingo 3(AF3)大型音频语言模型&am…

作者头像 李华
网站建设 2026/5/28 14:13:44

PyTorch闪电战:YOLOv8目标检测模型从零部署到实战应用

PyTorch闪电战:YOLOv8目标检测模型从零部署到实战应用 【免费下载链接】hrnet_ms MindSpore implementation of "Deep High-Resolution Representation Learning for Visual Recognition" 项目地址: https://ai.gitcode.com/openMind/hrnet_ms 想要…

作者头像 李华
网站建设 2026/5/29 0:18:38

Qwen3-32B-MLX-8bit:智能双模式切换的AI模型

Qwen3-32B-MLX-8bit:智能双模式切换的AI模型 【免费下载链接】Qwen3-32B-MLX-8bit 项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/Qwen3-32B-MLX-8bit 导语:Qwen3-32B-MLX-8bit作为Qwen系列最新一代大语言模型,首次实现了单一模…

作者头像 李华
网站建设 2026/5/28 20:59:39

微软Edge WebDriver签名验证失败:终极解决方案与预防指南

微软Edge WebDriver签名验证失败:终极解决方案与预防指南 【免费下载链接】runner-images actions/runner-images: GitHub官方维护的一个仓库,存放了GitHub Actions运行器的镜像文件及相关配置,这些镜像用于执行GitHub Actions工作流程中的任…

作者头像 李华