如何准备数据集？GPEN人像修复训练指南-开发者社区

如何准备数据集？GPEN人像修复训练指南

在深度学习驱动的人像修复任务中，高质量的训练数据是模型性能的基石。GPEN（GAN Prior Embedded Network）作为先进的人像增强模型，依赖于成对的高质-低质人脸图像进行监督训练。本文将系统性地介绍如何为GPEN模型准备符合要求的数据集，涵盖数据来源、降质策略、预处理流程及最佳实践建议，帮助开发者高效构建可用于训练的标准化数据集。

1. 数据集核心要求与设计原则

1.1 监督式训练的数据对结构

GPEN采用成对监督学习（paired supervision），即每条训练样本包含两个部分：

高清原图（High-Quality Image, HQ）：清晰、无噪声、高分辨率的人脸图像
低质退化图（Low-Quality Image, LQ）：由HQ图像通过模拟真实退化过程生成的低质量版本

这种配对方式使得模型能够学习从LQ到HQ的映射函数 $ f: \text{LQ} \rightarrow \text{HQ} $，从而实现端到端的修复能力。

关键提示：必须确保HQ与LQ之间具有严格的空间对齐关系，任何错位都会导致训练不稳定或伪影产生。

1.2 推荐数据规模与分辨率

参数	推荐值	说明
图像数量	≥ 50,000 张	更大数据量有助于提升泛化能力
分辨率	512×512 或 1024×1024	GPEN支持多尺度训练，推荐以512×512起步
人脸占比	≥ 70% 画面面积	避免过小或边缘化的人脸区域

使用FFHQ（Flickr-Faces-HQ）作为基础数据源是官方推荐做法，因其具备多样性、高质量和广泛可用性。

2. 数据获取与预处理流程

2.1 常用公开数据集推荐

以下为人像修复任务中最常用的开源人脸数据集：

数据集	图片数量	分辨率	特点
FFHQ	70,000	最高3000×3000	多样性强，覆盖年龄/性别/姿态
CelebA-HQ	30,000	1024×1024	经过对齐处理，适合快速实验
WIDER FACE	32,000+	可变	包含复杂背景和遮挡场景

下载地址：

FFHQ: https://github.com/NVlabs/ffhq-dataset
CelebA-HQ: https://github.com/tkarras/progressive_growing_of_gans

2.2 人脸检测与对齐

原始图像通常需要先进行人脸对齐，以消除姿态偏差并统一面部结构位置。

推荐使用facexlib中的dlib或retinaface模块完成此步骤：

from facexlib.detection import RetinaFaceDetector from facexlib.utils.face_restoration_helper import FaceRestoreHelper # 初始化人脸辅助工具（自动加载RetinaFace） face_helper = FaceRestoreHelper( upscale_factor=1, face_size=512, crop_ratio=(1.0, 1.0), det_model='retinaface_resnet50' ) # 单张图像对齐示例 img_path = "input.jpg" face_helper.read_image(img_path) face_helper.get_face_landmarks_5(only_center_face=True) face_helper.align_warp_face()

输出结果为对齐后的人脸图像（通常裁剪为512×512），可直接用于后续降质处理。

3. 构建低质图像：退化策略详解

由于真实世界退化模式复杂且难以获取对应真值，当前主流方法采用合成退化（synthetic degradation）来生成LQ图像。

3.1 主流降质方案对比

方法	实现库	退化类型	是否可微
BSRGAN	自研网络	模糊+噪声+压缩	✅
RealESRGAN	basicsr	多种非线性退化	✅
Classic Degradation	OpenCV + PIL	手工设定模糊+下采样	✅
DRealSR	PyTorch	学习型退化模拟器	✅

其中，BSRGAN和RealESRGAN是最接近真实退化的生成式退化模型，强烈推荐用于GPEN训练。

3.2 使用RealESRGAN生成LQ图像

假设你已安装basicsr并准备好HQ图像目录，可通过如下脚本批量生成LQ图像：

import cv2 import os import numpy as np from basicsr.data.degradations import random_add_gaussian_noise, random_add_poisson_noise from basicsr.data.transforms import paired_random_crop from basicsr.utils import img2tensor, tensor2img def apply_degradation(hq_img): """模拟真实退化过程""" hq_tensor = img2tensor(hq_img.astype(np.float32) / 255., bgr2rgb=True, float32=True) # 步骤1：随机模糊核 kernel_size = np.random.randint(7, 21) sigma = np.random.uniform(0.6, 3.0) blur_kernel = cv2.getGaussianKernel(kernel_size, sigma) degraded = cv2.filter2D(hq_img, -1, blur_kernel @ blur_kernel.T) # 步骤2：添加混合噪声 degraded = random_add_gaussian_noise(degraded, sigma_range=[1, 30]) degraded = random_add_poisson_noise(degraded, scale_range=[0.05, 3.]) # 步骤3：JPEG压缩 quality_factor = np.random.randint(30, 95) encode_param = [int(cv2.IMWRITE_JPEG_QUALITY), quality_factor] _, encimg = cv2.imencode('.jpg', degraded, encode_param) lq_img = cv2.imdecode(encimg, 1) # 步骤4：下采样至目标尺寸 target_size = (512, 512) lq_img = cv2.resize(lq_img, target_size, interpolation=cv2.INTER_LINEAR) return lq_img

该脚本实现了典型的“模糊→噪声→压缩→缩放”链式退化，能有效模拟真实低质图像。

4. 数据组织与加载配置

4.1 标准化目录结构

为兼容GPEN训练代码，建议按如下格式组织数据：

datasets/ └── gpen_train/ ├── train_hq/ │ ├── img_00001.png │ ├── img_00002.png │ └── ... ├── train_lq/ │ ├── img_00001.png │ ├── img_00002.png │ └── ... └── val/ ├── hq/ └── lq/

注意：文件名需一一对应，以便DataLoader自动配对。

4.2 训练配置修改（以GPEN为例）

编辑options/train_GAN_prior.yml文件中的数据路径：

datasets: train: name: FFHQ type: PairedImageDataset dataroot_gt: ./datasets/gpen_train/train_hq # 高清图像路径 dataroot_lq: ./datasets/gpen_train/train_lq # 低质图像路径 io_backend: type: disk val: name: CelebAHQVal type: PairedImageDataset dataroot_gt: ./datasets/gpen_train/val/hq dataroot_lq: ./datasets/gpen_train/val/lq

同时调整分辨率参数：

network_g: type: GPENNet in_size: 512 out_size: 512 channel: 256 narrow: 1.0

5. 训练启动与监控建议

5.1 启动训练命令

进入镜像环境后执行：

conda activate torch25 cd /root/GPEN # 开始训练（根据实际配置文件命名） python codes/train.py -opt options/train_GAN_prior.yml

5.2 关键超参数设置建议

参数	推荐值	说明
batch_size	8~16	取决于GPU显存（A100推荐16）
num_workers	4~8	数据加载并行数
lr_g	1e-4	生成器初始学习率
lr_d	5e-5	判别器初始学习率
total_epochs	200~500	视收敛情况而定
print_freq	100	每100步打印loss