破解遥感目标的形状与尺度难题,PKINet二代推理提速近4倍!
【导读】卫星和航空影像里的目标,不仅大小相差悬殊,还可能朝向任意方向:一边是细长的桥梁、船舶,一边是密集的小车和大面积运动场。PKINet-v2是一种改进的遥感目标检测模型,能同时处理复杂形状和尺度变化的问题。
自然图像里的物体通常有较稳定的拍摄视角,遥感影像则不同。
一张高分辨率卫星图中,可能同时出现接近圆形的储罐、狭长的桥梁和船舶、密集排列的小汽车,以及占据大面积区域的足球场。它们的方向可以任意旋转,尺寸也可能从不足10像素的小目标跨越到覆盖大范围的场地目标。
这带来两类问题:
几何复杂性:目标朝向和长宽比变化很大,细长目标尤其需要沿主轴方向聚合信息;
空间复杂性:目标尺度跨度极大,模型既要保留小目标纹理,又要看到大范围上下文。
只使用条带卷积,虽然有利于描述桥梁、船舶等细长结构,却可能破坏规则目标的二维空间连贯性,并丢失微小目标的局部细节;只使用方形大核,可以扩大观察范围,却容易在细长目标周围引入更多背景噪声。
换句话说,遥感检测需要的不是一把固定形状的「放大镜」,而是一组能够随目标形态和尺度协同工作的观察窗口。
也就是说,遥感检测模型常常面临一个现实取舍:想让网络「看得更远、更细」,通常要付出更多计算;想跑得更快,又可能损失复杂场景下的检测精度。
南京理工大学、浙江大学等最新提出PKINet-v2同时满足了这两个看似互相矛盾的要求。

PKINet-v2论文: https://arxiv.org/pdf/2603.16341
PKINet-v1论文: https://arxiv.org/abs/2403.06258
项目代码: https://github.com/NUST-Machine-Intelligence-Laboratory/PKINet
在CVPR 2024前作PKINet的基础上,PKINet-v2把条带卷积与多尺度方形卷积统一起来,并将训练时的多分支结构等价折叠为部署时的单个大核。
在Oriented R-CNN统一设置下,PKINet-v2-S相较PKINet-v1-S提升2.07个mAP百分点,FPS从14.05提高到54.60,约为前作的3.9倍。
在DOTA-v1.0单尺度训练和测试、Oriented R-CNN检测器的统一设置下,标准版PKINet-v2-S取得80.46 mAP,相比PKINet-v1-S的78.39提高2.07个百分点。
与此同时,完整检测模型的FPS由14.05提高到54.60,约为前作的3.9倍;参数量从30.8M略降至30.7M,FLOPs也从184G降至173G。

更重要的是,这种提升并不依赖某一个特定检测头。把PKINet-v2接入Rotated FCOS、R3Det、S²ANet、RoI Transformer、Rotated Faster R-CNN和Oriented R-CNN后,相比PKINet-v1分别获得2.27、1.75、1.85、2.70、2.57和2.07个mAP百分点的提升。

图1 在多种旋转检测器上,PKINet-v2的运行点整体向「更高精度、更高FPS」移动
这里的速度均来自论文给定的单张NVIDIA A100-40G GPU测试环境,不能直接等同于无人机、边缘芯片或星上设备的实际帧率,但它说明新骨干在统一硬件条件下显著减少了推理开销。
从PKINet到PKINet-v2
PKINet采用无空洞的并行多尺度方形卷积,提取不同尺度目标及其局部上下文,并通过Context Anchor Attention(CAA)补充长程信息。其在DOTA-v1.0、DOTA-v1.5、HRSC2016和DIOR-R等基准上的结果,为Poly-Kernel路线提供了稳定验证,也成为PKINet-v2的直接起点。
PKINet-v2并非另起炉灶,而是围绕前作仍可改善的几何适配、计算冗余和部署效率,完成四项升级:
从「多尺度建模」走向「几何与空间协同建模」。 PKINet-v1的3×3至11×11方形卷积主要应对尺度变化;PKINet-v2进一步加入横向和纵向条带卷积,让网络既能沿细长目标主轴捕获长距离依赖,也能保留规则目标的二维结构。
从「密集大核」走向「层次化渐密感受野」。 新设计把全跨度条带分支、稀疏膨胀方形分支和稠密局部分支组合在一起,从外围到中心逐步增加采样密度,以较少冗余同时覆盖长程上下文和局部细节。
从「多分支直接推理」走向「训练多分支、部署单分支」。 训练时保留多种形状的卷积分支,部署前再严格等价地融合成单个19×19逐通道卷积,减少GPU反复调用不同算子和读写中间特征的开销。
在前作基础上进一步兼顾精度与效率。 在统一Oriented R-CNN设置下,mAP提高2.07个百分点,FPS约为前作的3.9倍,同时参数量和FLOPs没有增加。
核心技术:让卷积核既会「拉长看」,也会「向外看」
PKINet-v2仍采用四阶段层次化骨干。图像进入网络后,会逐步下采样并扩大通道数;每个阶段堆叠若干PKINet-v2 Block,其中最关键的是负责空间建模的PKS模块。

图2 PKINet-v2总体结构,包括四阶段骨干、PKINet-v2 Block和PKS模块
PKS:五条分支,覆盖不同形状和尺度
Poly-Kernel Scope(PKS)可以理解为一套「异形镜头组」。输入特征先经过5×5逐通道卷积提取局部信息,随后被送入五条并行分支:
一条由1×19和19×1卷积串联构成的轴向条带分支,重点观察桥梁、船舶等狭长结构;
三条核尺寸为7×7、5×5和3×3的稀疏方形分支,用较低成本扩大上下文范围;
一条稠密3×3分支,保留中心区域纹理和微小目标细节。
五条分支组合后,形成一种「层次化渐密」的感受野:外围覆盖范围大,越靠近中心采样越密。这样,网络既能看见目标整体,也不至于把局部纹理冲淡。
HKR:训练时五路并行,部署时合成一路
多分支有利于学习,却未必适合部署。若推理时逐条执行,会产生多次kernel launch、中间特征生成和重复内存访问。
Heterogeneous Kernel Re-parameterization(HKR)的思路很直接:先把每条卷积分支与其BN层融合,再把不同尺寸、不同膨胀率的方形核映射到统一的19×19网格;横向与纵向条带分支也可通过逐通道外积变成等价的19×19卷积核。最后,所有权重与偏置相加,得到一个单分支大核。

图3 左侧为PKS的层次化渐密感受野,右侧为HKR等价融合过程
这不是用一个小模型去近似原模型,而是对计算图做严格等价变换。因此,HKR前后模型输出和mAP保持一致,速度收益主要来自减少碎片化执行和内存流量。
实验结果
DOTA-v1.0:精度与速度同步前进
在标准设置下,PKINet-v2-S达到80.46 mAP,高于Strip RCNN-S的80.06和PKINet-v1-S的78.39。官方代码仓库还提供PKINet-v2-S-Sqrt5配置,在相同数据集的单尺度设置下达到80.75 mAP。
类别层面,Bridge类别从PKINet-v1-S的55.81提高到57.72;Small Vehicle和Soccer Ball Field分别达到81.21和71.97,说明同一骨干能够同时处理高长宽比目标、密集小目标和大尺度目标。

论文表3 DOTA-v1.0单尺度训练与测试结果
不只DOTA:船舶和更广泛遥感场景同样有效
在DOTA-v1.5上,PKINet-v2-S取得73.57 mAP,相比PKINet-v1-S提高2.10个百分点;在DIOR-R上取得69.40 mAP,相比前作提高2.37个百分点。
面向任意方向船舶检测的HRSC2016上,模型取得90.75 mAP(07)和98.84 mAP(12)。这组提升不如DOTA上的幅度大,但仍表明混合核设计能够稳定适应细长船舶目标。

论文表5-6 PKINet-v2在HRSC2016与DIOR-R上的结果
越「奇形怪状」的目标,提升越明显
研究团队进一步按目标长宽比和相对面积进行分桶。与PKINet-v1-S相比,在长宽比3-4和6-7区间,PKINet-v2-S的mAP分别从36.59、19.60提高到45.21、26.18,提升达到8.62和6.58个百分点。
在最小目标区间,mAP由12.98提高到13.43;在最大目标区间,则由69.50提高到71.39。也就是说,PKS不仅对细长目标有效,对极端尺寸变化也保持了较稳定的适应能力。

论文表8 不同目标长宽比与相对尺寸区间的性能分析
定性结果也呈现出类似趋势:面对狭长目标、密集小目标以及多尺度目标同时出现的场景,PKINet-v2相比PKINet-v1、Strip RCNN和LSKNet出现的漏检更少。

图4 DOTA-v1.0可视化对比:上半部分对应几何复杂性,下半部分对应空间复杂性
消融实验:混合核负责精度,HKR负责速度
如果只保留dense、strip或sparse分支,模型分别得到78.57、79.62和79.36 mAP;三类形态组合后的Hybrid设计达到80.11 mAP。这说明条带核与方形核不是简单堆叠,而是在不同目标形态和尺度上形成互补。
HKR则主要贡献部署效率:PKINet-v2-T的FPS从46.2提高到58.0,PKINet-v2-S从43.4提高到54.6,而两种模型的mAP均保持不变。

论文表9 核形态、膨胀率、分支数量和HKR的消融实验
总结与应用展望
PKINet-v1先用并行多尺度卷积和CAA验证了Poly-Kernel路线处理尺度变化与多样上下文的潜力;PKINet-v2沿着这一起点,把复杂几何建模、多尺度上下文聚合和高效部署进一步统一到同一个骨干中。
从方法上看,PKS让模型同时拥有适合细长目标的条带感受野、适合规则目标的方形感受野,以及面向微小纹理和大范围场景的不同尺度;HKR则把训练期的结构复杂性折叠为部署期的单分支算子。
这类能力可为航空与卫星影像中的飞机、船舶、车辆、桥梁、港口和运动场检测提供基础支撑,并进一步服务于城市规划、环境监测、灾害管理和大范围遥感影像自动解译。
不过,论文中的失败案例也显示,极小目标、严重模糊、显著遮挡、紧密排列以及外观高度相似的目标仍可能出现漏检或误分类。
未来,除继续提升困难样本的细粒度特征建模外,PKINet-v2还可进一步验证在语义分割、变化检测、场景分类,以及无人机、边缘设备和星上平台等具体硬件环境中的适用性。
参考资料:
https://arxiv.org/pdf/2603.16341
编辑:LRST
声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里查看更多信息!
AI 中文社