报名开启｜ 2026CCIG百度企业论坛【多模态视觉与空间智能前沿论坛】-开发者社区

大会简介

中国图像图形大会（CCIG 2026）2026年5月29日—31日在广州长隆国际会展中心召开，由中国图像图形学会主办，中山大学承办，广东省图象图形学会、华南理工大学、琶洲实验室协办，主题为“图绘湾区，象启新元”，湖南大学王耀南院士、南京大学谭铁牛院士、琶洲实验室（黄埔）徐宗本院士、中山大学赖剑煌教授共同担任大会主席。

大会特邀李树涛院士、张艳宁院士、张文军院士、朱文武教授、王海峰博士、张正友博士、权龙教授作主旨报告，200余位专家学者将带来前沿报告，50余场高端论坛聚焦具身智能、空间智能、大模型、脑机接口、机器视觉、类脑智能、医学影像等热点方向，覆盖学术前沿、产业应用和技术创新，打造多层次交流平台。大会设置科技成果和海报展区，全景呈现图像图形领域最新技术与应用。预计4000余名来自高校、科研机构的专家学者，以及领军企业技术精英齐聚一堂，共同探索图像图形技术赋能智能时代发展的新路径。

大会期间将举行中国图像图形学会颁奖盛典，并召开学会理事会议和常务理事会议，共商学会建设与领域发展大计。

论坛基本信息

论坛名称

多模态视觉与空间智能前沿论坛

会议时间

2026年5月30日13:30-15:30

会议地点

长隆国际会展中心三层301

论坛简介

在大模型加速迈向产业落地的新阶段，AI正从“看懂图文”迈向“理解空间与真实世界”。视觉多模态、空间智能与原生多模态融合能力，正在成为推动新一代人工智能发展的关键方向。本论坛聚焦视觉多模态协同表征、动态稀疏计算、人脸生成编辑、文档智能解析、空间智能等前沿议题，汇聚高校学者、产业专家与技术企业代表，共同探讨多模态大模型在感知、理解、生成与空间认知方向的最新突破与产业实践，展现AI从二维视觉理解迈向空间世界认知的发展趋势。

报名二维码

论坛主席

白翔

华中科技大学软件学院院长

人工智能研究院执行院长

白翔，华中科技大学教授、博导，国家杰出青年基金获得者，IEEE/IAPR Fellow，国际期刊Pattern Recognition副主编（A-EIC）。主要从事计算机视觉与模式识别、多模态大模型等方面研究，在Nature Machine Intell.、IEEE TPAMI、CVPR等国际一流期刊和国际会议发表论文200余篇。担任国际顶级期刊IEEE TPAMI编委，顶级会议CVPR、ICCV、ECCV、AAAI、IJCAI、NeurIPS的领域主席，国际文档分析与识别会议ICDAR 2025大会主席。曾获ACL 2024最佳论文奖（Best Paper Award）、2024年湖北省青年科技创新奖、2023年湖北省自然科学一等奖（排1）、2021年中国图像图形学会自然科学一等奖（排1）、2019年国际模式识别协会青年学者奖（IAPR/ICDAR Young Investigator Award）。现任中国图像图形学会常务理事，青工委主任。

王井东

百度计算机视觉首席科学家

王井东，百度计算机视觉首席科学家，加拿大工程院外籍院士，IEEE/IAPR 会士，ACM杰出会员。曾任微软亚洲研究院视觉计算组首席研究员。研究领域为计算机视觉、深度学习及多媒体搜索。代表工作包括高分辨率神经网络（HRNet）、基于transformer attention的图像语义分割网络OCRNet、以及基于近邻图的大规模最近邻搜索等。担任IEEE TPAMI、IJCV和ACM TOMM的编委会成员，（曾）担任过许多人工智能会议的领域主席，如 NeurlPS、CVPR、ICCV、ECCV、AAAI、IJCAI、ACM MM等，担任ICCV 2025 程序委员会主席。

论坛讲者信息

刘竹琳

华南理工大学计算机科学与工学院数据科学与人工智能团队副教授、博士生导师

报告题目：视觉多模态大模型的协同表征与动态稀疏计算

报告摘要：本报告围绕视觉多模态大模型的协同表征与动态稀疏计算，关注视觉、语言等多源信息在大模型中的高效理解、交互与适配问题。随着多模态模型能力不断增强，模型不仅需要实现图像、文本、语音等模态之间的语义对齐和互补表达，还需要在复杂输入和多样任务中合理分配计算资源，避免全量交互带来的冗余计算、推理延迟和部署成本。报告将从协同表征、动态稀疏计算和高效可信适配三个层面展开：首先讨论如何构建可对齐、可解释、可交互的多模态语义基础；其次分析如何根据输入复杂度、模态贡献和任务需求动态选择关键计算路径；最后探讨如何在下游场景中实现轻量适配、能力保持和可信输出。整体目标是为视觉多模态大模型走向高效、稳定、可靠的实际部署提供统一技术路径。

个人简介：刘竹琳，现任华南理工大学计算机科学与工程学院副教授，入选2025年全球前2%科学奖，长期从事多模态大模型理论与技术研究，主持与参与国家级/省部级项目6项，包括百度松果基金（2025）“基于动态稀疏机制的多模态大模型高效计算框架”，在多模态模型可控生成及高效计算等方向积累了系统性的理论与工程经验，获得2021年TNNLS最佳论文奖、2020年澳门自然科学奖二等奖、2019年Franklin V. Taylor Memorial Award。

潘烨

上海交通大学长聘教轨副教授、博士硕士生导师

报告题目：多模态条件驱动的人脸细粒度编辑与生成研究

报告摘要：本项目围绕多模态条件驱动的人脸细粒度编辑与生成展开研究，构建融合文本、语音、表情、动作等多模态信息的智能生成与驱动框架，实现角色建模、细粒度编辑与动态驱动的一体化协同。项目进一步引入细粒度情感建模与风格化生成算法，结合角色个性特征、身份设定及场景语义，实现虚拟角色在表情、动作与情绪反馈上的多样化、自适应表达，提升数字角色的真实感、艺术表现力与交互沉浸感。研究成果可广泛应用于虚拟医生、虚拟助手、数字演员、智能陪伴等领域，为下一代数字人交互与元宇宙内容生产提供关键技术支撑。

个人简介：潘烨，上海交通大学计算机学院长聘副教授，研究方向为虚拟现实与人机交互。2015年博士毕业于伦敦大学学院，随后在迪士尼研究院担任副研究员。在IEEE VR、CVPR和TVCG等国际顶级会议和期刊上发表学术论文50余篇，其中以第一作者或通讯作者发表CCF A类论文31篇，授权美国专利2项、中国专利2项。受邀担任IJHCS CCF A类期刊编委，以及 IEEE VR 等CCF A类会议与期刊的程序委员会委员。曾获迪士尼研究院创新奖（排名1/2）、IEEE VR最佳论文荣誉提名奖（2025年，第一作者）、CCF产学合作基金优秀项目奖（2025年，排名1/1）和腾讯犀牛鸟基金优秀项目奖（2023年，排名1/1）。入选上海市“千人计划”、中国图学学会“青年托举工程”和微软亚洲研究院“铸星计划”等人才项目。

于静

中央民族大学信息工程学院、人工智能研究院教授、博士生导师

报告题目：多模态大模型水印技术探索

报告摘要：多模态大模型生成内容的爆发式增长带来了严峻的版权保护与有害信息溯源难题。本报告围绕多模态大模型水印技术，首先介绍水印技术从传统后处理方法向模型参数深度耦合的内在水印范式的演进范式。其次，面向多模态数据、集中式与分布式部署、单客户端与多客户端训练等多样化场景，阐述差异化的水印嵌入与提取方案。最后，介绍涵盖模型水印多维度的评测基准。为多模态AIGC的可信溯源与版权保护提供技术支撑。

个人简介：于静，现任中央民族大学信息工程学院、人工智能研究院教授，博士生导师，入选北京市科技新星。近年来主要研究方向包括人工智能安全、信息内容安全等。在TIFS、TIP、CVPR等国际会议/期刊发表学术论文100余篇，申请发明专利20余项，合著英文教材1部。主持国家科技重大专项课题、国家自然科学基金项目、北京市科技计划项目等国家级/省部级项目10余项。担任 CCF区块链专委会执行委员，中国电子学会区块链分会委员；担任信息安全领域国际期刊TIFS编委；获国际会议最佳论文奖5项。

刘毅

百度主任架构师

报告题目：PaddleOCR多模态文档智能解析

报告摘要：大语言模型对高质量结构化语料的需求，驱动了传统OCR向多模态文档解析（OCR 2.0）范式的演进。针对当前工业级可规模化方案欠缺、端到端大模型算力成本高昂且易产生幻觉等痛点，本次报告将分享PaddleOCR在架构创新与数据飞轮方面的最新研究进展。报告重点介绍模拟人类视觉机理的“先感知、后理解”两阶段轻量化架构，以及大小模型协同的高效自动化数据产线。该方案以0.9B的极小参数量在多项文档解析公开评测集中超越顶尖千亿级模型，为泛文档解析及大模型应用提供可靠的数据底座。

个人简介：刘毅，百度主任架构师。长期从事机器学习、深度学习相关的技术研发和应用工作，主导了包括 PaddleOCR、ERNIE及PaddleX 等10余个知名开源项目。曾主持北京市创新联合体项目中“文心大模型全栈国产化适配研发及优化”课题，参与工信部高质量发展专项和科技创新2030-“新一代人工智能”重大项目等多项国家科技计划的多个项目课题研究。

霍然

八维通科技有限公司空间智能副总经理

报告题目：以空间智能锚定物理世界数字化未来

报告摘要：随着大语言模型红利期收敛，下一代AI的主战场正加速迈向“空间智能与具身智能” 。本演讲将探讨如何从大屏可视化的“数字孪生”旧范式，跨越到可计算、可推演的“空间操作系统”新范式。重点分享基于“感知-推演-执行”闭环，打造纯国产自主可控的空间物理视觉语义大模型与空间智能体（Agent）技术，以及在大安全大应急框架下的消防、水利等复杂物理场景的数字化变革与落地实践。

个人简介：霍然，高级工程师，现任八维通科技有限公司空间智能事业部副总经理。长期深耕空间智能、数字孪生与智慧消防应急等前沿技术在基础设施领域的融合应用。专注于空间智能底座能力、多模态大模型行业方案设计及产业战略规划，主导并参与了多项自主可控数字空间建模软件与智能体系统闭环的工程化落地，致力于推动AI全面锚定并赋能物理世界数字化未来。

冯伟

凤凰卫视 AI 技术总监

报告题目：从视频理解到空间智能：凤凰卫视的AI数据探索与实践

报告摘要：本演讲将围绕凤凰卫视在 AI 数据领域的探索实践，分享从视频理解到空间智能的演进路径。内容涵盖高价值多模态语料建设、NeMoBench 视频感知基准测试、媒体领域 Agent Benchmark 设计，以及大模型在长时序理解、时空因果推理和主动规划中的关键挑战，探讨媒体数据体系在大模型时代的应用价值与未来方向。

个人简介：冯伟，凤凰卫视 AI 技术总监、凤凰智媒副总经理，媒体领域资深技术专家。长期从事内容智能和人工智能产业化应用相关工作，拥有十余年内容科技实践经验。曾主导AI 中台、智能舆情系统等核心系统的建设与落地，并于 2022 年将生成式 AI 技术引入实际生产流程。现负责凤凰卫视 AI 数据业务，牵头构建多项高质量多模态数据集及 Benchmark 基准评测体系，推动其在媒体融合、大模型数据生态及智能内容生产等场景中的应用。

李志军

国家集成电路设计自动化技术创新中心算法工程师，飞桨开发者技术专家

报告题目：多模态模型的演进路线：自回归、扩散、混合范式与智能体未来

报告摘要：当前多模态大模型普遍采用拼接式架构——视觉编码器经连接器桥接至语言模型，理解与生成分属两套独立系统，语义鸿沟与模态孤岛成为结构性瓶颈。本报告系统梳理多模态模型从拼接走向融合的演进路线，深入对比自回归、扩散与混合三大范式的设计哲学、核心优势与根本局限，并探讨多模态推理与智能体作为下一阶段的核心突破方向。在此基础上，进一步分析原生多模态智能体的发展趋势与关键挑战，展望感知、推理与行动在统一表征空间中闭环融合的技术前景。

个人简介：李志军，国家集成电路设计自动化技术创新中心算法工程师，中国农业大学硕士。百度飞桨开发者技术专家（PPDE）、飞桨框架贡献者俱乐部成员（PFCC）。专注于多模态理解与生成、计算机视觉等前沿领域，拥有多年算法研发与团队管理经验，主导多个智慧工业、智慧医疗项目的落地，涵盖工业质检、安防监控、国产化芯片适配、医学影像等方向。在多届语言与智能技术竞赛/开放原子大赛中斩获一等奖。长期活跃于飞桨开源社区，在CSDN、GitHub等平台持续分享技术文章与心得。

论坛议程

论坛亮点

①聚焦“多模态+空间智能”前沿趋势：论坛围绕视觉多模态协同表征、空间智能、原生多模态等热点方向展开，呈现AI从图文理解走向真实世界认知的技术演进路径。议题涵盖动态稀疏计算、人脸细粒度编辑与生成、多模态大模型水印技术、OCR文档解析、空间智能等内容，系统展现多模态及空间智能前沿技术进展。

②学术前沿与产业实践同台碰撞：论坛汇聚华南理工大学、上海交通大学、中央民族大学、百度、八维通、凤凰卫视、国家集成电路设计自动化技术创新中心等多方代表，兼具学术创新深度与产业落地价值，分享真实场景中的技术实践与应用探索。

联系人

百度论坛参会联系人

吴洋，wuyang15@baidu.com

报名链接：

https://paddle.wjx.cn/vm/PpI1TtY.aspx#

报名二维码

关注【飞桨PaddlePaddle】公众号

获取更多技术内容~