news 2026/4/15 22:21:12

PatchTST模型无监督、自监督(Patch Time series Transformer...

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
PatchTST模型无监督、自监督(Patch Time series Transformer...

PatchTST模型无监督、自监督(Patch Time series Transformer)时间序列预测。 单输入单输出,多输入多输出,精度极高。 该模型基于基础transformer模型进行魔改,主要的贡献有三个: 1.通过Patch来缩短序列长度,表征序列的局部特征。 2.Channel Independent的方式来处理多个单维时间序列 3.更自然的Self-Supervised 方式

最近在时间序列预测的圈子里,有个叫PatchTST的模型突然火了起来。这玩意儿在电力预测、销量预测这些需要处理长周期波动的场景里表现贼溜,关键是不需要标注数据就能玩转。作为一个常年和时序数据死磕的老司机,我连夜扒了它的源码,发现这哥们儿可不止是Transformer的简单套用。

先看它的核心杀器——时间序列打补丁。传统方法处理长序列就像用吸管喝珍珠奶茶,总有几个珍珠(关键信息)卡住吸不上来。PatchTST直接上剪刀,把时间轴切成带重叠的块(比如24小时数据切成6小时一块,滑动步长4小时)。代码里这个操作贼直观:

class PatchEmbedding(nn.Module): def __init__(self, seq_len=512, patch_size=24, stride=8): super().__init__() self.num_patches = (seq_len - patch_size) // stride + 1 self.proj = nn.Conv1d(1, 128, kernel_size=patch_size, stride=stride) def forward(self, x): return self.proj(x).permute(0, 2, 1) # 输出形状:[batch, num_patches, 128]

这卷积操作相当于用滑动窗口提取局部特征,比原始Transformer的全局注意力省了80%的计算量。有意思的是他们的重叠设计,相邻补丁之间有部分数据重合,就像拍全景照片时留点重叠区域,防止关键特征被切碎。

第二个骚操作是通道独立处理。假设你要预测10个关联性不强的指标(比如不同商品的销量),传统多变量模型容易学歪。PatchTST给每个通道单独搞了个Transformer,代码实现上就是个并行处理:

class ChannelIndependentWrapper(nn.Module): def __init__(self, model, num_channels): super().__init__() self.models = nn.ModuleList([model() for _ in range(num_channels)]) def forward(self, x_list): # x_list是各个通道的数据列表 return torch.stack([m(x) for m, x in zip(self.models, x_list)], dim=1)

这设计看似简单粗暴,但在实际业务场景中非常实用。比如预测连锁店各分店的销售额时,北京分店和上海分店的销售规律可能差异很大,强行混在一起训练反而效果打折。

自监督预训练才是真·黑科技。他们的mask策略不像BERT那样随机盖token,而是整块整块地mask时间片段:

def random_masking(x, mask_ratio=0.5): B, L, D = x.shape len_keep = int(L * (1 - mask_ratio)) noise = torch.rand(B, L, device=x.device) ids_shuffle = torch.argsort(noise, dim=1) ids_restore = torch.argsort(ids_shuffle, dim=1) x_masked = torch.gather(x, dim=1, index=ids_shuffle[:, :len_keep].unsqueeze(-1).expand(-1, -1, D)) return x_masked, ids_restore

这个mask操作让模型必须根据前后时间块来推理被遮盖的内容,相当于提前学会了时间序列的上下文理解能力。在实际业务数据上,我试过先用30%的数据做自监督预训练,再用全量数据微调,效果比直接监督学习高了7个点。

实测环节更有意思。用某新能源车充电桩的功率数据做测试,24小时预测任务中,PatchTST相比传统的Informer误差降低了23%。更绝的是在处理突发波动时,比如下午三点突然有个充电高峰,传统模型往往滞后响应,而PatchTST能提前1-2个时间单位捕捉到趋势变化——这可能得益于patch机制对局部特征的敏感捕捉。

不过这个模型也不是银弹。当遇到超高频数据(比如秒级采样的股票数据)时,直接使用默认的patch设置会丢失细节特征。这时候需要魔改下patch_size和stride参数,或者叠加深层CNN来辅助特征提取。但总体而言,这种兼顾效率和精度的设计思路,确实为时间序列预测打开了新姿势。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/15 4:33:26

软技能在测试中的重要性

超越技术,软技能点亮测试之路 在数字化浪潮席卷全球的今天,软件测试作为确保产品质量的关键环节,早已不再局限于纯技术层面。随着敏捷开发、DevOps和人工智能测试工具的普及,测试从业者若仅依赖硬技能(如自动化脚本编…

作者头像 李华
网站建设 2026/3/28 19:38:31

COMSOL模拟沸腾水中气泡运动及蒸汽冷凝:探究两相流流体传热过程

COMSOL案例模拟沸腾水中气泡运动两相流流体传热蒸汽冷凝。沸腾水中的气泡运动是两相流研究中极具挑战性的场景。在电水壶底部突然冒出的气泡,不仅涉及气液界面的剧烈变形,还伴随着相变传热和蒸汽冷凝现象。今天我们用COMSOL做个"热水壶模拟器"…

作者头像 李华
网站建设 2026/4/14 15:51:51

13、Visual Basic编程入门:从基础到实践

Visual Basic编程入门:从基础到实践 1. 颜色设置与控件事件 1.1 颜色设置 在编程中,颜色的设置往往是通过特定的编码来实现的。在相关的编程环境里,颜色的强度可以用十六进制数字来表示。其中,RR 十六进制数字表示红色的强度,范围从 00h 到 FFh(即 0 到 255);GG 表示…

作者头像 李华
网站建设 2026/4/10 10:39:10

14、可视化编程实践:从基础练习到菜单设计

可视化编程实践:从基础练习到菜单设计 1. 编程基础练习 在编程学习过程中,基础练习是提升技能的重要途径。以下是一些相关编程练习的介绍: - 电阻颜色代码程序 :需要完善程序以实现完整的电阻颜色代码功能,可参考特定表格。之后要对程序进行修改,使其能循环运行直至…

作者头像 李华