news 2026/3/23 16:33:32

KDD25|探讨如何利用大模型处理不规则采样时间序列

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
KDD25|探讨如何利用大模型处理不规则采样时间序列

论文标题:Unleashing The Power of Pre-Trained Language Models for Irregularly Sampled Time Series

论文链接:https://arxiv.org/abs/2412.20790

研究背景

本文探索了利用大语言模型处理不规则采样的时间序列(Irregularly Sampled Time Series, ISTS),ISTS数据因采样间隔不规则和数据缺失,导致很多情况下很难直接应用已有的模型 ,然而在医疗健康、生物学、气候科学、天文学、物理学和金融学等多个领域中,不规则采样的时间序列十分常见。

尽管预训练基础模型已推动自然语言处理和计算机视觉领域取得重大进展,但它们在时间序列分析中的发展却受到数据稀疏性和对任务特异性方法需求的限制,这引发了一个关键问题:PLMs对ISTS分析是否仍然有效?

现有工作不足

过往研究多聚焦于规则采样时间序列,传统方法,如循环神经网络和 Transformer 模型,在处理不规则时间序列时,需将时间线离散化或填充缺失值,这易造成信息丢失并忽视观测间动态 。

然而,如何协调时间序列数据与自然语言模式,释放预训练语言模型在时间序列分析中的潜力,仍是亟待解决的问题 。此外,将 Transformer 扩展到连续时间域,以提升对不规则时间序列数据的建模能力,也逐渐成为研究热点 。

ISTS的表示方法对比

首先,作者总结了针对不规则序列的三种核心表示方法,分别是:集合式、向量式、序列式表示。

针对含 N 个变量、各变量观测时间间隔不规则的 ISTS,文中介绍了三种典型表示方法(如图 1 所示),核心差异在于数据组织形式对模型适配性的影响。

结论:序列式表示按变量将 ISTS 拆分为多个单变量序列,每个序列仅包含对应变量的真实观测时间与取值,不含冗余标记或混合信息。这种方式结构清晰,能有效减少变量间的干扰,适配 PLMs 的序列建模特性。

本文模型

本文提出统一的PLM基框架ISTS-PLM以应对非规则采样时间序列(ISTS)分析挑战,框架包含可训练输入嵌入层、PLM骨干模块与可训练任务输出层,通过冻结PLM核心参数仅微调层归一化参数平衡性能与效率,关键创新在于针对ISTS特性优化表示适配与建模逻辑。

输入嵌入层通过时间、变量、值、掩码等嵌入器组合,将不同表示的ISTS对齐到PLM语义空间:时间嵌入器以线性项与正弦函数编码时序特征,变量嵌入器映射变量信息,值与掩码嵌入器则适配不同数据形态。PLM骨干模块设计时间感知PLM替换位置嵌入解决序列内非规则性,并为序列式表示新增变量感知PLM捕捉变量相关性,针对集合式、向量式、序列式表示分别设计排序整合、值掩码融合、单变量建模后关联分析的流程。

任务输出层按需适配分析需求:分类任务通过线性层与Softmax输出类别概率,优化交叉熵损失;插值与外推任务结合查询时间与模型特征,经MLP预测取值并优化均方误差损失,实现对多类IST S任务的统一处理。

实验结果

基于序列式表示的 ISTS-PLM 在 7 个跨领域数据集上,于分类、插值、外推任务中均优于 18 种基线模型,如 P12 数据集分类 AUROC 达 87.6%,PhysioNet 数据集插值 MSE 仅 4.55×10⁻³。

下表是在分类任务上的结果对比:

泛化能力在 10% 训练数据的少样本场景及跨 ICU 类型 / 年龄组的零样本场景中,性能始终领先,且鲁棒性更强。

效率优势:隐藏维度 768 时,训练参数仅 127K,训练与推理效率优于多数基线模型。

结论

研究首次系统探索PLMs在ISTS分析中的应用,提出的序列式表示和ISTS-PLM框架,有效解决了ISTS的非规则性与异步性难题,在多任务、多领域中均实现最优性能,为非规则时间序列分析提供了高效通用的解决方案。


大家可以关注我【科学最top】,第一时间follow时序高水平论文解读!!!获取时序论文合集

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/21 11:32:00

EmotiVoice在直播场景中的实时语音应用探索

EmotiVoice在直播场景中的实时语音应用探索 在一场深夜的直播中,观众刷出一条弹幕:“哈哈哈你太搞笑了!” 几秒后,主播用熟悉的音色笑着回应:“谢谢夸奖,我会继续努力的!”——语气轻快、语调上…

作者头像 李华
网站建设 2026/3/14 12:55:35

我发现材料预测模型不准,后来才知道加晶体结构GNN提升性能

💓 博客主页:借口的CSDN主页 ⏩ 文章专栏:《热点资讯》 目录我和AI的相爱相杀史:从“人工智障”到“智能打工人” 一、AI创业:从“人肉听写”到独角兽的奇幻漂流 二、AI在生活中的“神操作”与翻车现场 1. 智能家居&am…

作者头像 李华
网站建设 2026/3/15 18:38:24

24、软件考古:深入探索Git仓库的历史与文件

软件考古:深入探索Git仓库的历史与文件 1. Git新文件标识 Git使用两个指标来表明这是一个新文件: - new file mode :表示这是一个权限模式为100644的新文件。 - index 0000000 :表示该文件的先前版本不存在。 若要限制 git log 的输出,可以输入以下命令: gi…

作者头像 李华
网站建设 2026/3/17 2:49:53

EmotiVoice语音合成能否达到广播级音质?专业评测

EmotiVoice语音合成能否达到广播级音质?专业评测 在流媒体平台日益普及、音频内容消费持续增长的今天,听众对声音品质的要求早已不再停留在“听得清”。无论是有声书、播客、虚拟偶像直播,还是游戏NPC对话,用户期待的是富有情感张…

作者头像 李华
网站建设 2026/3/16 20:33:41

定位咨询的中国奇迹:从营销工具到商业生意的蜕变

核心洞察:定位在中国不是战略方法论,而是解决企业决策焦虑的"广告效率工具"。当市场进入信息过载时代,这种红利正在消退。技术从业者需理解"认知效率"在产品设计中的关键作用,而非盲目套用"定位"概…

作者头像 李华