CNN-Transformer混合架构在系外行星直接成像检测中的应用-开发者社区

1. 项目概述与核心挑战

在系外行星探测这个充满未知与挑战的领域，直接成像技术一直被视为“皇冠上的明珠”。想象一下，你要从一座巨型探照灯（恒星）的炫目光芒中，分辨出一只在几公里外飞舞的微弱萤火虫（行星），而且这只“萤火虫”的光亮可能只有“探照灯”的千万分之一甚至更弱。这就是天文学家们每天面对的现实：极端的对比度。更棘手的是，望远镜光学系统的不完美会产生一种叫做“准静态散斑”的噪声，它们像顽固的污渍一样粘在图像上，其亮度甚至可能超过行星信号，而且形态多变，难以预测。

传统上，我们依赖像PCA-KLIP（基于主成分分析的Karhunen-Loève图像投影）这样的算法来“清洗”图像。这类方法的核心思想是：既然散斑噪声在短时间内相对稳定，而行星会随着恒星一起在天空中旋转（利用角差分成像技术），那么通过分析多张不同角度拍摄的图像序列，就能构建一个噪声模型并将其减去。这个方法很经典，也立下了汗马功劳，但它有两个“硬伤”：一是计算量大，处理海量数据时效率堪忧；二是它本质上是一种基于线性代数的“盲”处理，对于复杂、非线性的噪声模式，其建模能力有限。

近年来，卷积神经网络（CNN）的引入带来了一股新风。它能直接从图像中学习特征，实现端到端的检测，速度很快。但CNN有个天生的短板：它的“视野”是局部的。一个卷积核只能看到图像的一小块区域，通过堆叠多层才能逐渐扩大感受野。这对于识别一张图片里的猫狗没问题，但对于分析行星在几十甚至上百帧图像序列中那连贯、微弱的运动轨迹来说，CNN很难建立起帧与帧之间的长程依赖关系。它更像是在独立分析每一帧，然后投票，而忽略了“运动”这个最关键的时序线索。

这就引出了我们这次尝试的核心：为什么不把CNN的“火眼金睛”和Transformer的“全局统筹”能力结合起来？Transformer，这个在自然语言处理领域掀起革命的架构，其核心“自注意力机制”就像一个智能的会议主持人，能让序列中的每一个元素（在这里是每一帧图像的特征）都与其他所有元素“对话”，并判断谁的信息更重要。对于行星检测，这意味着模型可以学会：在某一帧中一个看似不起眼的亮点，如果它在后续帧中沿着一条合理的轨迹移动，那么它极有可能就是我们要找的行星；反之，一个很亮的点如果一直呆在原地，那它大概率是讨厌的散斑噪声。这种基于时序连贯性的推理能力，正是传统CNN所欠缺的，也是本项工作的创新起点。

2. 混合架构的深度设计解析

2.1 整体架构蓝图：CNN与Transformer的协同

我们的模型设计遵循一个清晰的流水线思维：先做特征提取，再做时序推理，最后进行决策输出。整个架构可以看作一个分工明确的流水线。

第一阶段：CNN特征提取器（单帧侦察兵）输入是一个图像序列，比如10帧64x64像素的图片。我们不是把整个序列一股脑塞进模型，而是先让CNN对每一帧进行独立处理。这里的CNN结构非常精简：两层卷积层（3x3卷积核，ReLU激活），每层后面跟一个2x2的最大池化层。为什么这么设计？

浅层网络：我们的图像相对简单（主要是噪声和点源），复杂的深度网络（如ResNet）容易过拟合，且计算量大。两层卷积足以捕捉到边缘、斑点等基础特征。
小卷积核：3x3是标准选择，在减少参数量的同时能有效捕捉局部模式。
最大池化：逐步降低空间维度（从64x64到最后），聚焦于最显著的特征，同时提供一定的平移不变性。

经过这个轻量级CNN，每一张64x64的图片被压缩成一个128维的特征向量。你可以把这个向量理解为这一帧图像的“精华摘要”，它编码了本帧内所有重要的局部信息。

第二阶段：Transformer编码器（时序总指挥）现在，我们得到了一个序列：10个帧，每个帧对应一个128维的特征向量。这个序列被送入Transformer编码器。我们使用了2个Transformer块，每个块包含一个多头自注意力层（8个头）和一个前馈神经网络。

自注意力机制如何工作：对于序列中的每一个特征向量（比如代表第5帧的向量），自注意力层会计算它与序列中所有其他特征向量（包括它自己）的“关联度”。这个关联度是通过查询（Query）、键（Key）、值（Value）的矩阵运算得出的。简单来说，模型会学习提问：“对于理解第5帧的内容，第1、2、3...10帧的信息有多重要？”如果行星从第1帧移动到第10帧，那么这10帧的特征向量之间就会通过自注意力机制建立起强烈的关联权重，从而凸显出这个运动模式。
多头的作用：8个注意力头就像8个不同的专家，它们可以并行地关注序列中不同类型的依赖关系。有的头可能专注于短时移动，有的头可能关注长时轨迹，最后再将所有头的见解综合起来，使得模型对时序模式的理解更加全面和鲁棒。

Transformer的输出，是一个融合了全局时序上下文信息的、新的特征序列。

第三阶段：双任务输出头（决策官）最后，我们将Transformer输出的综合特征，输入两个并行的全连接层（输出头），分别完成两个任务：

分类头：使用Sigmoid激活函数，输出一个0到1之间的概率值，代表“该序列中存在运动行星”的置信度。
定位头：进行回归任务，输出一个二维坐标 (x, y)，预测行星在第一帧中的位置。选择预测第一帧的位置是为了提供一个固定的参考点。

注意：这里有一个重要的设计考量：为什么不预测每一帧的位置？对于行星检测，我们首要目标是“有没有”，其次是“在哪里开始出现的”。预测第一帧位置足以锁定目标，后续轨迹可以通过运动模型或简单关联得出。同时，这简化了回归任务，让模型更专注于识别运动模式的存在性，而不是复杂的轨迹跟踪，这在训练初期更稳定。

2.2 数据策略：从仿真到半真实的渐进验证

任何机器学习模型的成功，都离不开高质量、有代表性的数据。我们的数据策略采用了从易到难、从仿真到半真实的渐进路线，确保模型能力的扎实构建。

2.2.1 纯合成数据集：原理验证与基线建立这个数据集的目标是验证核心逻辑：模型能否学会从噪声中识别出连贯的运动信号？

生成逻辑：
- 背景：生成高斯随机噪声（均值0，标准差0.3），模拟探测器本底噪声。
- 干扰项：在背景上随机添加一些静止的亮斑（亮度0.1-0.3），模拟顽固的准静态散斑。这些是“假目标”。
- 真目标：在50%的序列中，加入一个移动的“行星”——一个3像素大小的亮斑（峰值亮度0.5），让它沿一个圆形轨道运动。信噪比（SNR）约为1.67（0.5/0.3），这是一个相当微弱的信号。
设计意图：这是一个高度简化的沙盒环境。噪声是随机的、不相关的，干扰项是静止的。如果模型连这个都学不会，就更别提处理真实数据了。它帮助我们将问题聚焦在“运动模式识别”这一核心能力上。

2.2.2 半合成真实数据集：迈向实际应用的关键一步在模型通过纯合成数据测试后，我们将其置于更真实的战场：使用詹姆斯·韦伯空间望远镜（JWST）实际观测的TW Hya原行星盘图像作为背景。

数据基础：TW Hya是一个年轻的恒星，拥有一个几乎正对着我们的、明亮的原行星盘。JWST的图像包含了最真实的复杂噪声结构、盘面的明暗特征以及仪器本身带来的相关噪声。
行星注入：我们向这些真实的图像序列中，人工注入一个模拟的行星信号（3像素高斯点），并让其沿轨道运动。注入信号的亮度经过计算，使其相对于所在轨道环带背景的通量标准差，达到SNR=5。同时，我们还添加了泊松噪声来模拟光子计数统计。
重大意义：这一步是概念验证（POC）到实际应用的关键桥梁。它回答了：“当背景不再是简单的随机噪声，而是充满复杂结构、亮度不均、噪声相关的真实天文图像时，模型还能工作吗？” 在此数据集上的成功，极大地增强了该架构处理真实观测数据的信心。

2.3 训练与损失函数设计

我们使用Adam优化器，学习率设为1e-4。对于纯合成数据和半合成数据，分别训练了50和100个周期。这里的关键是损失函数的设计。

我们采用了一个加权组合损失函数：总损失 = 分类损失 + λ * 定位损失。

分类损失：使用二元交叉熵（Binary Cross-Entropy），这是二分类任务的标准选择，衡量预测概率与真实标签（有行星/无行星）的差距。
定位损失：使用均方误差（MSE）或平均绝对误差（MAE）来计算预测坐标与真实坐标的欧氏距离。在本文中，更倾向于使用欧氏距离作为直接的位置误差度量。
权重λ：我们设置为0.1（即10:1的权重偏向分类）。这个设置至关重要。在检测任务中，正确判断“有没有”比精确到亚像素的“在哪里”优先级更高。初期如果给定位损失过高的权重，模型可能会因为难以精确回归位置而分散注意力，反而影响了对运动模式本身的学习。我们的策略是，先让模型学会可靠地检测，再逐步细化定位精度。

3. 实操复现：从零搭建与训练模型

3.1 环境配置与依赖安装

要复现这个工作，你需要一个配置了GPU的Python环境。以下是核心的依赖库：

# 创建并激活虚拟环境（推荐） conda create -n exoplanet-detection python=3.9 conda activate exoplanet-detection # 安装核心依赖 pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 # 根据你的CUDA版本调整 pip install numpy pandas matplotlib scikit-learn jupyter pip install astropy # 用于处理天文数据（如果使用真实FITS文件） pip install scikit-image # 用于图像处理

实操心得：PyTorch的版本与CUDA驱动匹配是关键。使用nvidia-smi查看你的CUDA版本，然后去PyTorch官网选择对应的安装命令。如果只有CPU，可以安装CPU版本的PyTorch，但训练速度会慢很多。

3.2 数据生成模块代码详解

纯合成数据集的生成是理解整个项目的基础。下面是一个核心函数示例：

import numpy as np import matplotlib.pyplot as plt def generate_synthetic_sequence(sequence_length=10, image_size=64, noise_level=0.3, has_planet=False): """ 生成一个合成图像序列。 参数： sequence_length: 序列帧数 image_size: 图像尺寸（正方形） noise_level: 高斯噪声的标准差 has_planet: 是否包含移动行星 返回： sequence: 形状为 (sequence_length, image_size, image_size) 的numpy数组 planet_pos: 如果has_planet为True，返回第一帧的行星位置(x, y)，否则返回None """ sequence = [] # 生成公共的静态噪声背景和静态干扰斑 static_noise = np.random.normal(0, noise_level, (image_size, image_size)) # 添加几个随机位置的静态亮斑作为干扰 num_distractors = np.random.randint(3, 8) for _ in range(num_distractors): x, y = np.random.randint(10, image_size-10, size=2) brightness = np.random.uniform(0.1, 0.3) static_noise[y-1:y+2, x-1:x+2] += brightness # 3x3亮斑 planet_pos = None if has_planet: # 随机生成圆形轨道的参数：圆心、半径、起始角 center_x, center_y = image_size // 2, image_size // 2 orbit_radius = np.random.uniform(15, 25) start_angle = np.random.uniform(0, 2*np.pi) for i in range(sequence_length): frame = static_noise.copy() # 每帧共享相同的静态背景和干扰 if has_planet: # 计算当前帧行星在轨道上的位置 angle = start_angle + (i / sequence_length) * 2 * np.pi # 绕一圈 planet_x = int(center_x + orbit_radius * np.cos(angle)) planet_y = int(center_y + orbit_radius * np.sin(angle)) # 在第一帧记录位置 if i == 0: planet_pos = (planet_x, planet_y) # 在行星位置添加一个3x3的亮斑（模拟点扩散函数PSF） frame[planet_y-1:planet_y+2, planet_x-1:planet_x+2] += 0.5 # 行星信号 # 添加每帧独立的高斯噪声（模拟读出噪声等） frame += np.random.normal(0, noise_level*0.1, (image_size, image_size)) sequence.append(frame) return np.array(sequence), planet_pos # 生成示例 seq_with_planet, pos = generate_synthetic_sequence(has_planet=True) seq_without_planet, _ = generate_synthetic_sequence(has_planet=False) print(f"生成序列形状: {seq_with_planet.shape}") # (10, 64, 64) print(f"行星起始位置: {pos}")

3.3 模型构建：PyTorch实现

以下是混合架构的PyTorch实现核心代码：

import torch import torch.nn as nn import torch.nn.functional as F class CNNFeatureExtractor(nn.Module): """轻量级CNN特征提取器，独立处理每一帧""" def __init__(self, input_channels=1, feature_dim=128): super().__init__() self.conv1 = nn.Conv2d(input_channels, 32, kernel_size=3, padding=1) self.pool1 = nn.MaxPool2d(2) self.conv2 = nn.Conv2d(32, 64, kernel_size=3, padding=1) self.pool2 = nn.MaxPool2d(2) # 经过两次池化，64x64 -> 32x32 -> 16x16 self.fc = nn.Linear(64 * 16 * 16, feature_dim) def forward(self, x): # x shape: (batch_size, seq_len, channels, height, width) batch_size, seq_len, C, H, W = x.shape # 将序列维度合并到批次维度，以便并行处理所有帧 x = x.view(batch_size * seq_len, C, H, W) x = F.relu(self.conv1(x)) x = self.pool1(x) x = F.relu(self.conv2(x)) x = self.pool2(x) x = x.view(x.size(0), -1) # 展平 x = F.relu(self.fc(x)) # 恢复序列维度 x = x.view(batch_size, seq_len, -1) return x class PlanetDetector(nn.Module): """CNN-Transformer混合模型""" def __init__(self, seq_len=10, feature_dim=128, num_heads=8, num_layers=2): super().__init__() self.cnn = CNNFeatureExtractor(feature_dim=feature_dim) # Transformer编码器层 encoder_layer = nn.TransformerEncoderLayer( d_model=feature_dim, nhead=num_heads, dim_feedforward=512, batch_first=True # 输入输出为(batch, seq, feature) ) self.transformer_encoder = nn.TransformerEncoder(encoder_layer, num_layers=num_layers) # 分类头：判断是否有行星 self.classifier = nn.Sequential( nn.Linear(feature_dim, 64), nn.ReLU(), nn.Dropout(0.3), nn.Linear(64, 1), nn.Sigmoid() ) # 定位头：预测第一帧的行星位置 (x, y) self.regressor = nn.Sequential( nn.Linear(feature_dim, 64), nn.ReLU(), nn.Dropout(0.3), nn.Linear(64, 2) # 输出x, y坐标 ) def forward(self, x): # x shape: (batch_size, seq_len, 1, H, W) # 1. CNN提取特征 features = self.cnn(x) # (batch_size, seq_len, feature_dim) # 2. Transformer编码，捕捉时序依赖 # 添加位置编码（这里使用可学习的位置编码） seq_len = features.size(1) if not hasattr(self, 'pos_encoding'): self.pos_encoding = nn.Parameter(torch.zeros(1, seq_len, features.size(-1))) features = features + self.pos_encoding encoded = self.transformer_encoder(features) # (batch_size, seq_len, feature_dim) # 3. 使用序列的全局表示（这里取最后一层Transformer输出的第一帧特征，或使用[CLS] token思路） # 我们取所有帧特征的平均作为全局上下文，用于分类和定位 global_context = encoded.mean(dim=1) # (batch_size, feature_dim) # 4. 双任务输出 classification = self.classifier(global_context).squeeze(-1) # (batch_size,) position = self.regressor(global_context) # (batch_size, 2) return classification, position # 实例化模型 device = torch.device('cuda' if torch.cuda.is_available() else 'cpu') model = PlanetDetector().to(device) print(f"模型参数量: {sum(p.numel() for p in model.parameters()):,}")

3.4 训练循环与评估

训练过程需要精心设计数据加载、损失计算和评估指标。

def train_epoch(model, dataloader, optimizer, criterion_cls, criterion_reg, lambda_reg=0.1, device='cuda'): model.train() total_loss = 0 correct = 0 total = 0 position_errors = [] for batch_idx, (sequences, labels, positions) in enumerate(dataloader): sequences, labels, positions = sequences.to(device), labels.to(device), positions.to(device) optimizer.zero_grad() pred_prob, pred_pos = model(sequences) # 计算损失 loss_cls = criterion_cls(pred_prob, labels.float()) # 注意：只对有行星的样本计算定位损失 mask = labels.bool() # 有行星的样本掩码 if mask.any(): loss_reg = criterion_reg(pred_pos[mask], positions[mask]) else: loss_reg = torch.tensor(0.0, device=device) loss = loss_cls + lambda_reg * loss_reg loss.backward() optimizer.step() total_loss += loss.item() # 计算分类准确率 pred_labels = (pred_prob > 0.5).float() correct += (pred_labels == labels).sum().item() total += labels.size(0) # 计算定位误差（仅对有行星的样本） if mask.any(): pos_error = torch.sqrt(((pred_pos[mask] - positions[mask])**2).sum(dim=1)).mean().item() position_errors.append(pos_error) avg_loss = total_loss / len(dataloader) accuracy = 100. * correct / total avg_pos_error = np.mean(position_errors) if position_errors else 0 return avg_loss, accuracy, avg_pos_error # 评估函数 def evaluate(model, dataloader, criterion_cls, criterion_reg, lambda_reg=0.1, device='cuda'): model.eval() total_loss = 0 all_preds = [] all_labels = [] all_pos_preds = [] all_pos_true = [] with torch.no_grad(): for sequences, labels, positions in dataloader: sequences, labels, positions = sequences.to(device), labels.to(device), positions.to(device) pred_prob, pred_pos = model(sequences) loss_cls = criterion_cls(pred_prob, labels.float()) mask = labels.bool() if mask.any(): loss_reg = criterion_reg(pred_pos[mask], positions[mask]) else: loss_reg = torch.tensor(0.0, device=device) loss = loss_cls + lambda_reg * loss_reg total_loss += loss.item() all_preds.extend(pred_prob.cpu().numpy()) all_labels.extend(labels.cpu().numpy()) if mask.any(): all_pos_preds.extend(pred_pos[mask].cpu().numpy()) all_pos_true.extend(positions[mask].cpu().numpy()) # 计算F1分数等指标 from sklearn.metrics import f1_score, precision_score, recall_score pred_labels = (np.array(all_preds) > 0.5).astype(int) f1 = f1_score(all_labels, pred_labels) precision = precision_score(all_labels, pred_labels) recall = recall_score(all_labels, pred_labels) accuracy = 100. * (np.array(all_labels) == pred_labels).mean() avg_pos_error = np.sqrt(((np.array(all_pos_preds) - np.array(all_pos_true))**2).sum(axis=1)).mean() if all_pos_preds else 0 return total_loss/len(dataloader), accuracy, f1, precision, recall, avg_pos_error

4. 结果分析与性能对比

4.1 合成数据上的表现：接近完美的基线

在纯合成数据集上，模型的训练曲线（损失和准确率）迅速收敛，最终在训练集和验证集上都达到了接近100%的准确率。这证明了混合架构在解决这个简化问题上的强大能力。下表展示了我们的模型与两种传统方法（优化中值减法、PCA-KLIP）的详细对比：

方法	F1分数	准确率	精确率	召回率	位置误差（像素）
CNN-Transformer (本文)	100.00%	100.00%	100.00%	100.00%	0.72
优化中值减法	89.39%	89.60%	91.25%	87.60%	1.75
PCA-KLIP	52.17%	70.67%	100.00%	35.29%	1.45

结果解读：

CNN-Transformer的全面优势：我们的模型在所有分类指标上均达到100%，定位误差也低于1个像素。这表明模型不仅完美区分了有无行星的序列，还能精确定位。
PCA-KLIP的局限性凸显：PCA-KLIP的精确率为100%，意味着它没有误报（假阳性），但召回率极低（35.29%），漏掉了大量真实行星。这是因为PCA-KLIP依赖于足够多的帧来构建准确的噪声主成分，在本文仅10帧的短序列中，其建模能力受限。这恰恰说明了传统方法对数据量的要求，以及在小样本或短序列场景下的不足。
优化中值减法的中庸表现：该方法表现尚可，但其性能严重依赖于手动设置的阈值，且对于亮度与噪声接近的行星，容易漏检或误检。

实操心得：理解“过拟合”与“泛化”：在如此简单的合成数据上达到100%准确率，新手可能会担心过拟合。但在这个阶段，我们的目标不是追求泛化到未知分布，而是验证架构能否学会“运动模式”这个核心概念。只要验证集性能同样优秀，就说明模型确实学到了规律，而非记住噪声。这是构建复杂模型的第一步：在一个可控的简单环境中证明其原理可行性。

4.2 半合成真实数据验证：从沙盒走向战场

在TW Hya半合成数据集上的成功，是本项目价值的关键证明。训练曲线再次显示模型能快速学习并达到高准确率。模型成功地从充满复杂盘状结构、相关噪声的真实JWST图像中，识别出了注入的模拟行星信号，且定位误差在几个像素以内。

这说明了什么？

特征提取的有效性：CNN部分成功地从复杂的真实天文图像中提取出了与“运动点源”相关的特征，过滤掉了大部分静态的盘结构和噪声。
时序建模的鲁棒性：Transformer部分能够利用这些特征，在时间维度上建立起正确的关联，即使背景极其复杂，也能捕捉到那一点连贯的运动信号。
架构的潜力：CNN-Transformer混合架构具备处理真实高对比度成像数据的潜力，其自动化、端到端的特性，对于处理JWST、未来极大望远镜（ELT）等产生的海量数据具有巨大吸引力。

4.3 当前模型的局限性与边界

尽管结果鼓舞人心，但我们必须清醒地认识到当前工作的局限性，这也是未来改进的方向：

数据简化：我们使用了圆形轨道和高信噪比（SNR=5）的行星。真实行星轨道可能是椭圆的，信号可能微弱得多（SNR<3）。模型在更极端条件下的表现有待测试。
泛化能力：模型在TW Hya数据上表现好，部分是因为我们使用了该系统的真实数据作为背景进行重新训练。一个“开箱即用”、能处理任何望远镜、任何恒星系统数据的通用模型尚未实现。这需要构建一个超大规模、多样化的训练数据集。
计算成本：Transformer的自注意力机制计算复杂度与序列长度的平方成正比。对于长达数百帧的观测序列，需要优化（如使用稀疏注意力、局部注意力）或下采样策略。
物理信息缺失：当前模型是一个纯粹的数据驱动模型，没有融入任何天体物理的先验知识（如开普勒轨道定律、行星亮度模型）。融入这些知识可能提升其在低信噪比下的鲁棒性和可解释性。

5. 常见问题、调试技巧与扩展方向

5.1 训练过程中的典型问题与解决方案

问题：损失震荡不收敛，或分类准确率始终在50%左右（随机猜测）。
- 检查数据：首先确认数据加载和标签是否正确。可视化一些训练样本，确保“有行星”的序列中确实存在移动点。检查数据增强（如果有）是否过于激进，破坏了运动连续性。
- 检查损失权重：如果定位损失权重（λ）设置过高，在训练早期会干扰分类任务的学习。尝试从较小的λ（如0.01或0.1）开始，甚至先只用分类损失训练几个周期，再引入定位损失。
- 学习率：1e-4是一个常用的起点，但如果损失震荡，可以尝试减小到5e-5或使用学习率预热（Learning Rate Warmup）策略。
- 梯度爆炸/消失：监控梯度范数。Transformer中常用的技巧是使用梯度裁剪（torch.nn.utils.clip_grad_norm_）。
问题：模型在验证集上过拟合（训练损失下降，验证损失上升）。
- 增加正则化：在CNN和全连接层后增加Dropout（如0.3-0.5）。在Transformer中也可以使用注意力Dropout和层Dropout。
- 数据增强：对图像序列进行合理的增强，如小幅度的随机旋转、平移、添加不同水平的高斯噪声。关键：必须确保增强操作应用于整个序列，且不破坏行星运动的连续性（例如，不能对每一帧做不同的随机裁剪）。
- 简化模型：如果数据量有限，尝试减少Transformer的层数或注意力头的数量，降低CNN的通道数。
问题：定位误差始终很大。
- 坐标归一化：确保输入模型的坐标位置（标签）已经归一化到[0, 1]或[-1, 1]区间，与图像尺寸匹配。使用Sigmoid或Tanh激活函数约束输出范围。
- 损失函数选择：尝试平滑L1损失（Smooth L1 Loss），它对异常值不如MSE敏感。
- 特征融合：考虑是否仅用全局上下文进行定位不够精细。可以尝试将Transformer编码后的每一帧的特征都用于一个更复杂的定位头（例如，一个小的CNN），或者引入“空间注意力”机制，让模型在特征图上直接聚焦可能包含行星的区域。

5.2 模型部署与推理优化

训练好的模型最终要用于处理真实的观测数据流水线。

模型量化与加速：使用PyTorch的量化工具（如torch.quantization）将FP32模型转换为INT8，可以显著减少模型大小并提升推理速度，对部署到边缘设备或处理大规模数据至关重要。
序列批处理：真实观测数据的一个“目标”可能对应上百帧。可以将其切割成有重叠的、固定长度（如10帧）的滑动窗口，分别输入模型，然后综合所有窗口的预测结果。
置信度校准：模型输出的概率需要校准，以反映真实的检测置信度。可以在一个独立的验证集上使用Platt缩放或等渗回归进行校准，这对于后续结合其他检测方法或人工审查至关重要。

5.3 未来有潜力的扩展方向

多尺度与金字塔特征：在CNN部分引入特征金字塔网络（FPN），让模型同时利用低层的高分辨率信息（精确定位）和高层的语义信息（判断是否为行星）。
物理引导的注意力：将轨道运动的先验知识融入注意力机制。例如，可以计算一个“轨道先验矩阵”，指导Transformer在计算注意力权重时，更关注符合开普勒运动规律的帧间关系。
从“检测”到“表征”：扩展模型，不仅检测行星，还能同时回归其物理参数，如相对亮度、估计的质量（通过亮度-质量关系）等，实现端到端的行星初步表征。
无监督与自监督预训练：利用海量的未标注高对比度成像数据，通过设计 pretext task（如下一帧预测、序列排序等）进行自监督预训练，学习通用的时空表示，再在下游的少量标注数据上进行微调，有望解决标注数据稀缺的问题。

这个CNN-Transformer混合架构为系外行星直接成像的数据处理打开了一扇新的大门。它不再仅仅是对单张图像做“减法”，而是让算法学会像天文学家一样，凝视一段动态的影像，从中捕捉那一点违反静态背景的、微弱的律动。虽然前路仍有诸多挑战，但这项初步研究已经证明，结合了局部感知与全局推理的深度学习模型，有能力从噪声的海洋中，钓起我们梦寐以求的新世界。