TensorFlow2实战：用CNN和RNN搞定轴承故障诊断（附完整代码）-开发者社区

TensorFlow2实战：工业级轴承故障诊断的深度学习解决方案

轴承作为机械设备的核心部件，其健康状态直接影响整个系统的运行效率与安全性。传统基于振动信号分析的诊断方法依赖专家经验，而深度学习技术为这一领域带来了革命性的变化。本文将带您从零构建一个融合CNN和RNN的混合模型，实现端到端的轴承故障诊断系统。

1. 工业数据准备与特征工程

轴承故障诊断的质量首先取决于数据的质量。凯斯西储大学（CWRU）轴承数据集是行业公认的基准数据，包含正常状态和多种故障类型的振动信号。原始数据通常需要经过以下处理流程：

数据采集与标注：CWRU数据集包含驱动端和风扇端的加速度计数据，采样频率为12kHz，故障类型包括内圈、外圈和滚动体缺陷，每种故障又有不同尺寸（0.007英寸到0.021英寸）
信号分段处理：将长时序信号切分为固定长度的样本窗口（如1024个采样点），每个窗口作为一个训练样本

import numpy as np from scipy.io import loadmat def load_cwru_data(file_path): mat_data = loadmat(file_path) vibration_data = mat_data['X108_DE_time'].reshape(-1) labels = mat_data['X108_DE_time_label'].reshape(-1) return vibration_data, labels def create_segments(data, labels, window_size=1024, step=512): segments = [] segment_labels = [] for i in range(0, len(data) - window_size, step): segments.append(data[i:i+window_size]) segment_labels.append(labels[i+window_size//2]) # 取窗口中间点的标签 return np.array(segments), np.array(segment_labels)

时频域特征提取：除了原始振动信号，计算以下特征可提升模型性能：
- 时域特征：均值、方差、峰值、峭度、波形指标
- 频域特征：FFT频谱、包络谱
- 时频特征：小波变换系数

特征类型	计算方式	物理意义
峰值指标	max(	x
脉冲指标	max(	x
峭度	E[(x-μ)^4]/σ^4	表征信号尖锐程度

2. 混合模型架构设计与实现

单纯的CNN或RNN模型各有局限：CNN擅长提取局部特征但难以捕捉长期依赖，RNN适合时序建模但对局部特征不敏感。我们设计一个CNN-RNN混合架构，充分发挥两者优势。

2.1 模型结构详解

特征提取层：使用1D-CNN处理振动信号，提取多尺度特征

3个卷积块，每块包含：
- 1D卷积层（kernel_size=64,32,16递减）
- BatchNormalization
- ReLU激活
- MaxPooling1D

时序建模层：BiLSTM捕捉信号前后依赖关系

双向LSTM层（128单元）
Dropout正则化（0.5）

分类输出层：全连接层+Softmax输出故障概率分布

from tensorflow.keras.models import Model from tensorflow.keras.layers import Input, Conv1D, BatchNormalization, ReLU from tensorflow.keras.layers import MaxPooling1D, Bidirectional, LSTM, Dense def build_hybrid_model(input_shape, num_classes): inputs = Input(shape=input_shape) # CNN特征提取 x = Conv1D(64, kernel_size=64, padding='same')(inputs) x = BatchNormalization()(x) x = ReLU()(x) x = MaxPooling1D(pool_size=2)(x) x = Conv1D(128, kernel_size=32, padding='same')(x) x = BatchNormalization()(x) x = ReLU()(x) x = MaxPooling1D(pool_size=2)(x) x = Conv1D(256, kernel_size=16, padding='same')(x) x = BatchNormalization()(x) x = ReLU()(x) x = MaxPooling1D(pool_size=2)(x) # RNN时序建模 x = Bidirectional(LSTM(128, return_sequences=False))(x) x = Dropout(0.5)(x) # 分类输出 outputs = Dense(num_classes, activation='softmax')(x) return Model(inputs, outputs)

2.2 关键实现技巧

输入标准化：振动信号应做z-score标准化，避免数值范围差异影响训练

from sklearn.preprocessing import StandardScaler scaler = StandardScaler() X_train = scaler.fit_transform(X_train.reshape(-1, 1)).reshape(X_train.shape) X_test = scaler.transform(X_test.reshape(-1, 1)).reshape(X_test.shape)

类别平衡处理：工业数据常存在类别不均衡问题，两种解决方案：
- 损失函数加权：class_weight参数
- 过采样/欠采样：SMOTE等算法

模型融合策略：将CNN和RNN分支并行处理，通过注意力机制融合

# 并行分支示例 cnn_branch = Conv1D(...)(inputs) rnn_branch = LSTM(...)(inputs) merged = Concatenate()([cnn_branch, rnn_branch])

3. 工业场景下的模型训练优化

实验室环境与工业现场存在显著差异，必须考虑以下实际问题：

3.1 噪声鲁棒性增强

工厂环境存在各种机械噪声和电磁干扰，可通过以下方法提升模型鲁棒性：

数据增强：

添加高斯噪声（SNR=10-20dB）
随机时间偏移（±5%）
幅度缩放（0.9-1.1倍）

def add_noise(signal, snr_db=20): signal_power = np.mean(signal**2) noise_power = signal_power / (10 ** (snr_db / 10)) noise = np.random.normal(0, np.sqrt(noise_power), len(signal)) return signal + noise

特征增强：
- 小波去噪（使用pywt库）
- 滑动平均滤波

3.2 迁移学习策略

当目标设备数据不足时，可采用迁移学习：

在源域数据（如CWRU）上预训练模型
冻结部分层（通常保留CNN特征提取层）
在目标域少量数据上微调顶层

实践表明，迁移学习可使小样本场景下的准确率提升15-30%

3.3 超参数优化实战

工业数据的最优超参数与学术数据集往往不同，推荐以下调参流程：

学习率：使用三角循环学习率（CyclicLR）在1e-5到1e-3范围搜索
批大小：工业数据建议32-128，过大易导致收敛不稳定
正则化：结合Dropout(0.3-0.5)和L2(1e-4)防止过拟合

from tensorflow.keras.optimizers import Adam from tensorflow.keras.callbacks import ReduceLROnPlateau model.compile( optimizer=Adam(learning_rate=1e-4), loss='sparse_categorical_crossentropy', metrics=['accuracy'] ) callbacks = [ ReduceLROnPlateau(monitor='val_loss', factor=0.5, patience=5), EarlyStopping(monitor='val_accuracy', patience=10, restore_best_weights=True) ]

4. 部署与性能优化技巧

将训练好的模型投入实际生产环境需要考虑以下关键点：

4.1 边缘设备部署方案

工厂环境常需在边缘设备运行模型，推荐优化策略：

模型轻量化：

使用TensorFlow Lite转换模型
量化感知训练（8位整数量化）

converter = tf.lite.TFLiteConverter.from_keras_model(model) converter.optimizations = [tf.lite.Optimize.DEFAULT] tflite_model = converter.convert()

计算加速：
- 使用TensorRT优化推理速度
- 针对特定硬件（如Jetson系列）编译

4.2 实时诊断系统设计

完整的轴承监测系统应包含以下模块：

数据采集层：振动传感器+数据采集卡
预处理层：实时滤波和特征计算
推理引擎：加载训练好的模型
决策层：故障报警与健康评估

class RealTimeDiagnosis: def __init__(self, model_path): self.model = tf.keras.models.load_model(model_path) self.buffer = np.zeros((1024,)) # 数据缓冲区 def update(self, new_samples): self.buffer = np.roll(self.buffer, -len(new_samples)) self.buffer[-len(new_samples):] = new_samples def predict(self): sample = self.buffer.reshape(1, -1, 1) return self.model.predict(sample)