- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 视频嵌入链接 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
旋转目标检测-白玉兰青年学者论坛
议题介绍
目前许多旋转检测算法都存在评估与损失不一致、边界不连续和类正方形检测等问题,从而导致检测模型在高精度检测中表现不鲁棒。对于评估与损失不一致问题,我们提出IoU-Smooth L1损失函数来近似不可微的旋转IoU损失,使得模型的学习和评估保持对齐。对于边界不连续问题,我们创新性地将角度回归问题转换成了分类问题,设计了一种循环平滑标签(CSL)从根本上消除了该问题。
此外,我们还把这个问题扩展到任意四边形,并提出了Modulated Loss予以解决。对于类正方形检测问题,我们基于CSL提出了角度密集编码(DCL)的标签结构,并通过引入一个对角度距离和长宽比都感知的权重来有效克服这个问题。此外,我们还设计了一种统一的优化方法GWD。GWD具有几个非常好的性质可以优雅地解决上述三个问题而不增加额外参数和计算量。最后,我们开源了一个支持多方法多数据集的旋转检测框架,并对上述算法做了相应的定量和定性分析。
讲师介绍
杨学,上海交通大学人工智能研究院博士生, 上海交通大学吴文俊人工智能荣誉博士班成员, 指导老师是严骏驰副教授。主要研究兴趣集中于通用目标检测和旋转目标检测。目前以一作身份于CVPR、ICCV、ECCV、ICML、AAAI等会议或期刊发表论文5篇, google scholar引用已超过650, 其余信息详见个人主页https://yangxue0827.github.io/。
展开查看详情
1 .关于旋转检测中高精度边界框的优化 杨学 2021年5月
2 .什么是旋转检测? ▪ 旋转检测是找到具有方向的边界框并对目标进行识别。
3 .旋转目标检测的优势 ▪ 保留方向信息 ▪ 适合密集场景,受后处理 (NMS)影响小 ▪ 检测结果背景区域占比小 ▪ ……
4 .旋转检测的应用场景 ▪ 遥感检测 ▪ 场景文字检测 ▪ 人脸检测 ▪ 零售场景检测 ▪ 3D目标检测
5 .两种常见的旋转框定义 ▪ 旋转框的定义方式 ▪ OpenCV定义法: (x,y,ho,wo, θo), θo ∈ [-90,0) ▪ 长边定义法: (x,y, hle,wle,θle), θle ∈ [-90,90) ▪ 转换关系
6 .旋转框IoU的计算 !"#$ %& '(#")$* IoU= !"#$ %& +,-%, predicted box
7 .旋转框IoU的计算 D. Zhou, et al. "IoU Loss for 2D/3D Object Detection.". https://github.com/lilanxiao/Rotated_IoU
8 .评估与损失不一致问题
9 .旋转框IoU的近似计算 Z. Chen, et al. "PIoU Loss: Towards Accurate Oriented Object Detection in Complex Environments." In ECCV 2020. Y. Zheng, et al. “Rotation-robust Intersection over Union for 3D Object Detection” In ECCV 2020.
10 .旋转检测中的边界问题 -∆θ Case 1 Anchor/Proposal: (0,0,70,10, −90°) Ground-Truth: 0,0,70,10,65° 𝑤 Predict box: (0,0,70,10, −115°) 𝑤 way1 𝒘 = 𝒘, 𝒉 = 𝒉, θ − θ = 𝟏𝟖𝟎° IoU< G, P >≈ 𝟏 Smooth-L1 Loss< G, P >PoA≫ 𝟎 ℎ ℎ Anchor/Proposal: (0,0,70,10, −90°) Ground-Truth: 0,0,70,10,65° 𝜃 +∆θ Predict box: (0,0,70,10, −65°) way2 Long Edge 𝒘 = 𝒘, 𝒉 = 𝒉, θ − θ = 𝟎° Definition IoU< G, P >≈ 𝟏 Smooth-L1 Loss< G, P > ≈ 𝟎
11 .旋转检测中的边界问题 -∆θ Case 2 Anchor/Proposal: (0,0,70,10, −90°) Ground-Truth: 0,0,10,70, −25° Predict box: (0,0,70,10, −115°) ℎ 𝑤 way1 𝒘 = 𝒉, 𝒉 = 𝒘, θ − θ = 𝟗𝟎° IoU< G, P >≈ 𝟏 Smooth-L1 Loss< G, P >PoA + EoE≫ 𝟎 𝑤 ℎ +∆θ +∆ℎ Anchor/Proposal: (0,0,70,10, −90°) 𝜃 Ground-Truth: 0,0,10,70, −25° way2 Predict box: (0,0,10,70, −25°) OpenCV Definition -∆𝑤 𝒘 = 𝒘, 𝒉 = 𝒉, θ − θ = 𝟎° IoU< G, P >≈ 𝟏 Smooth-L1 Loss< G, P >≈ 𝟎
12 .旋转检测中的边界问题 ℎ -∆θ 𝑤 Anchor/Proposal: (0,0,70,10, −90°) Boundary position Ground-Truth: 0,0,10,70, −25° 𝑤 Predict box: (0,0,70,10, −115°) ℎ 𝒘 = 𝒉, 𝒉 = 𝒘, θ − θ = 𝟗𝟎° IoU< G, P >≈ 𝟏 Smooth-L1 Loss< G, P > ≫ 𝟎 -∆ 𝑤 θ ℎ Anchor/Proposal: (0,0,70,10, −55°) Non-boundary position Ground-Truth: 0,0,70,10, −80° 𝑤 Predict box: (0,0,70,10, −80°) ℎ 𝒘 = 𝒉, 𝒉 = 𝒘, θ − θ = 𝟗𝟎° IoU< G, P >≈ 𝟏 Smooth-L1 Loss< G, P > ≈ 𝟎 OpenCV Definition
13 .IoU-Smooth L1 Loss ▪ 边界不连续性问题通常会使模 型的损失值在边界情况下突然 增加,主要原因如下: ▪ periodicity of angular (PoA) ▪ exchangeability of edges (EoE) ▪ 引入IoU常数因子,让IoU值决 定loss的大小,消除边界问题。 方向 幅值 X. Yang, et al. "Scrdet: Towards more robust detection for small, cluttered and rotated objects." In ICCV 2019.
14 .简单的角度分类 ▪ 边界不连续性问题通常会使模型的损失值在边界情况下突然增加。 ▪ 将目标角度的预测视为分类问题,以更好地限制预测结果。解决方 案是将目标的角度作为类别标签,类别数与角度范围有关。 ▪ 回归问题转换成分类问题实质是一个连续到离散的过程,中间存在 理论精度的损失:
15 .简单的角度分类 ▪ 简单角度分类存在的问题: ▪ 使用OpenCV定义法时EoE问题仍然存在(因此采用长边定义法) ▪ 分类损失对于预测标签和标签之间的角度距离是不可感知的。
16 .Circular Smooth Label (CSL) ▪ CSL是具有周期性的圆形标签编码, 并且分配的标签值平滑且具有一定 的容忍性 ▪ 性质 ▪ 周期性 ▪ 对称性 ▪ 最大值 ▪ 单调性 X. Yang, J. Yan. “Arbitrary-Oriented Object Detection with Circular Smooth Label.” In ECCV 2020.
17 . CSL的可视化 ▪ DOTA数据集上检测器的角度特征可视化。 每个点代表测试集的RoI, 以及其所属bin的索引。 pulse function gaussian function
18 .CSL存在的一些问题 ▪ 问题1:厚重的检测头 ▪ 问题2:长边定义法的使用不利于类正方形目标的检测 Case 3 Square-Like Problem 𝑤 +∆θ -∆θ way2 way1 ℎ 𝑤 ℎ Anchor/Proposal: (0,0,45,44,0°) Long Edge Definition Anchor/Proposal: (0,0,45,44,0°) Ground-Truth: 0,0,45,43, −60° Ground-Truth: 0,0,45,43, −60° Predict box: (0,0,45,44, −60°) Predict box: (0,0,45,44,30°) 𝒘 ≈ 𝒘 ≈ 𝒉 ≈ 𝒉, θ − θ = 𝟎° 长宽比越小,损失函 𝒘 ≈ 𝒘 ≈ 𝒉 ≈ 𝒉, θ − θ = 𝟗𝟎° IoU< G, P >≈ 𝟏 数对角度越不敏感。 IoU< G, P >≈ 𝟏 Smooth-L1 Loss< G, P > ≈ 𝟎 Smooth-L1 Loss< G, P > ≫ 𝟎
19 .Densely Coded Label (DCL) ▪ 使用密集编码(DCL)取代稀疏编码(SCL)(针对问题1) ▪ 一个例子:A=21, AR=180, w=1 ▪ Threg = 21, Thonehot=Thcsl=3780, Thdcl=168 X. Yang, et al. "Dense Label Encoding for Boundary Discontinuity Free Rotation Detection." In CVPR 2021.
20 .Densely Coded Label (DCL) ▪ 使用密集编码(DCL)取代稀疏编码(SCL)(针对问题1) SCL: One-Hot Label SCL: Circular Smooth Label DCL:Binary Coded Labe
21 .Densely Coded Label (DCL) ▪ 使用密集编码(DCL)取代稀疏编码(SCL)(针对问题1)
22 .Densely Coded Label (DCL) ▪ 角度距离和长宽比感知的权重(针对问题2)
23 .角度离散化粒度w ▪ 角度离散化粒度w太小,角度类别数太多,分类影响性能 ▪ 角度离散化粒度w太大,理论误差太大,性能上限较低
24 .角度离散化粒度w的可视化
25 .DCL的可视化 ▪ 角度特征可视化
26 .边界问题和类正方形检测问题
27 .一种统一的解决方法GWD X. Yang, et al. "Rethinking Rotated Object Detection with Gaussian Wasserstein Distance Loss." In ICML 2021.
28 .一种统一的解决方法GWD
29 .评估与损失不一致问题