五、深度学习视觉应用
1、数据集
常用数据集包括MNIST、Fashion-MNIST、CIFAR-10、PASCAL VOC、MS COCO、ImageNet、JFT-300M等。
2、任务评价指标
(1)精确率P与召回率R
P=TP/(TP+FP) ,表示“挑剔”的程度
R=TP/(TP+FN) ,表示“通过”的程度。召回率越高,准确度越低。
精度:(TP+TN)/(TP+FP+TN+FN)
其中,TP:正确划分为正例的个数, FP:错误划分为正例的个数,
FN:错误划分为负例的个数, TN:正确划分为负例的个数。
召回率和准确率之间的关系如图:
(2)平均准确率AP
其中,N表示测试集中所有图片个数,P(k)表示能识别出k个图时的P值,Δr(k)表示识别图片数从k-1变到k时的R的变化情况。
3、目标检测与YOLO
对于给定的图片,找到物体所在的位置,并标注出物体的类别。
(1)yolo v1
输入448*448*3的彩色图片,输出是7*7*30的张量。
损失函数包括:位置误差、置信度误差、类别概率损失
(2)yolo v2
相对于v1,v2有更大的分辨率,使用DarkNet网络,没有fc全连接层,经过5次降采样,输入图片大小必须是32的倍数。
4、全卷积网络与语义分割
FCN是语义分割的经典方法,DeepLab v3是广泛使用的语义分割方法。