手把手玩转CNN-BiLSTM-Attention分类模型-开发者社区

CNN-BiLSTM-Attention分类，基于卷积神经网络-双向长短期记忆网络结合注意力机制的数据分类预测，即CNN-BILSTM-Attention数据分类预测模型 matlab语言，要求在2020版本以上。 BILSTM可以更换为LSTM,GRU 适用于多特征输入单个输出的二分类及多分类模型。中文注释非常详细，程序已经调试好了替换数据就可以用。语言为matlab，可出分类效果图，迭代优化图，混淆矩阵图等。

最近在折腾时序数据分类，发现一个挺有意思的套路：先用CNN抓局部特征，再用BiLSTM捕捉时序依赖，最后让Attention机制来挑重点。自己用Matlab2021a捣鼓了个可替换的版本，实测二分类和多分类都挺稳，分享给需要的老铁。

先看整体架构（代码里画了结构图）：

% 网络结构构建 layers = [ sequenceInputLayer(inputSize) % 输入层 convolution1dLayer(3, 64, 'Padding','same') % 一维卷积 batchNormalizationLayer reluLayer maxPooling1dLayer(2,'Stride',2) bilstmLayer(128,'OutputMode','sequence') % 双向LSTM dropoutLayer(0.5) attentionLayer % 自定义注意力层 fullyConnectedLayer(numClasses) % 全连接层 softmaxLayer classificationLayer];

这里有几个骚操作值得注意：

一维卷积核大小设为3，既能捕捉局部特征又不会丢失太多时序信息
BiLSTM输出保持序列形式，给后面的Attention留操作空间
自定义的attentionLayer是关键（后面细说）

数据预处理这块容易踩坑，建议先做归一化：

% 数据标准化（按需修改） [XTrain, mu, sigma] = zscore(XTrain); XTest = (XTest - mu) ./ sigma; % 转置数据适配网络输入 [特征数 × 序列长度 × 样本数] XTrain = permute(XTrain, [2 1 3]); XTest = permute(XTest, [2 1 3]);

Attention层的实现是灵魂所在，用Dense层计算注意力权重：

classdef attentionLayer < nnet.layer.Layer methods function layer = attentionLayer() layer.Name = 'attention'; end function Z = predict(layer, X) [channel, seqLen, batchSize] = size(X); % 注意力权重计算 attentionWeights = fullyconnect(X, ones(channel,1)); % 全连接层 attentionWeights = softmax(attentionWeights); % 归一化 % 加权求和 Z = sum(X .* reshape(attentionWeights,1,seqLen,batchSize), 2); Z = reshape(Z, channel, 1, batchSize); end end end

这里有个骚操作：把全连接层当特征提取器用，生成的权重经过softmax后直接作用到原始特征上。相当于让模型自己决定哪些时间步更重要。

训练配置推荐用adam优化器，学习率别设太高：

options = trainingOptions('adam', ... 'MaxEpochs',200, ... 'MiniBatchSize',32, ... 'Plots','training-progress', ... 'ValidationData',{XTest, YTest}, ... 'Verbose',false);

跑完训练后这几个图一定要看：