破解遥感目标的形状与尺度难题，PKINet二代推理提速近4倍！

2026-06-30 发布浏览20次点赞0次收藏0次

【导读】卫星和航空影像里的目标，不仅大小相差悬殊，还可能朝向任意方向：一边是细长的桥梁、船舶，一边是密集的小车和大面积运动场。PKINet-v2是一种改进的遥感目标检测模型，能同时处理复杂形状和尺度变化的问题。

自然图像里的物体通常有较稳定的拍摄视角，遥感影像则不同。

一张高分辨率卫星图中，可能同时出现接近圆形的储罐、狭长的桥梁和船舶、密集排列的小汽车，以及占据大面积区域的足球场。它们的方向可以任意旋转，尺寸也可能从不足10像素的小目标跨越到覆盖大范围的场地目标。

这带来两类问题：

几何复杂性：目标朝向和长宽比变化很大，细长目标尤其需要沿主轴方向聚合信息；

空间复杂性：目标尺度跨度极大，模型既要保留小目标纹理，又要看到大范围上下文。

只使用条带卷积，虽然有利于描述桥梁、船舶等细长结构，却可能破坏规则目标的二维空间连贯性，并丢失微小目标的局部细节；只使用方形大核，可以扩大观察范围，却容易在细长目标周围引入更多背景噪声。

换句话说，遥感检测需要的不是一把固定形状的「放大镜」，而是一组能够随目标形态和尺度协同工作的观察窗口。

也就是说，遥感检测模型常常面临一个现实取舍：想让网络「看得更远、更细」，通常要付出更多计算；想跑得更快，又可能损失复杂场景下的检测精度。

南京理工大学、浙江大学等最新提出PKINet-v2同时满足了这两个看似互相矛盾的要求。

PKINet-v2论文： https://arxiv.org/pdf/2603.16341

PKINet-v1论文： https://arxiv.org/abs/2403.06258

项目代码： https://github.com/NUST-Machine-Intelligence-Laboratory/PKINet

在CVPR 2024前作PKINet的基础上，PKINet-v2把条带卷积与多尺度方形卷积统一起来，并将训练时的多分支结构等价折叠为部署时的单个大核。

在Oriented R-CNN统一设置下，PKINet-v2-S相较PKINet-v1-S提升2.07个mAP百分点，FPS从14.05提高到54.60，约为前作的3.9倍。

在DOTA-v1.0单尺度训练和测试、Oriented R-CNN检测器的统一设置下，标准版PKINet-v2-S取得80.46 mAP，相比PKINet-v1-S的78.39提高2.07个百分点。

与此同时，完整检测模型的FPS由14.05提高到54.60，约为前作的3.9倍；参数量从30.8M略降至30.7M，FLOPs也从184G降至173G。

更重要的是，这种提升并不依赖某一个特定检测头。把PKINet-v2接入Rotated FCOS、R3Det、S²ANet、RoI Transformer、Rotated Faster R-CNN和Oriented R-CNN后，相比PKINet-v1分别获得2.27、1.75、1.85、2.70、2.57和2.07个mAP百分点的提升。

图1 在多种旋转检测器上，PKINet-v2的运行点整体向「更高精度、更高FPS」移动

这里的速度均来自论文给定的单张NVIDIA A100-40G GPU测试环境，不能直接等同于无人机、边缘芯片或星上设备的实际帧率，但它说明新骨干在统一硬件条件下显著减少了推理开销。

从PKINet到PKINet-v2

PKINet采用无空洞的并行多尺度方形卷积，提取不同尺度目标及其局部上下文，并通过Context Anchor Attention（CAA）补充长程信息。其在DOTA-v1.0、DOTA-v1.5、HRSC2016和DIOR-R等基准上的结果，为Poly-Kernel路线提供了稳定验证，也成为PKINet-v2的直接起点。

PKINet-v2并非另起炉灶，而是围绕前作仍可改善的几何适配、计算冗余和部署效率，完成四项升级：

从「多尺度建模」走向「几何与空间协同建模」。 PKINet-v1的3×3至11×11方形卷积主要应对尺度变化；PKINet-v2进一步加入横向和纵向条带卷积，让网络既能沿细长目标主轴捕获长距离依赖，也能保留规则目标的二维结构。

从「密集大核」走向「层次化渐密感受野」。新设计把全跨度条带分支、稀疏膨胀方形分支和稠密局部分支组合在一起，从外围到中心逐步增加采样密度，以较少冗余同时覆盖长程上下文和局部细节。

从「多分支直接推理」走向「训练多分支、部署单分支」。训练时保留多种形状的卷积分支，部署前再严格等价地融合成单个19×19逐通道卷积，减少GPU反复调用不同算子和读写中间特征的开销。

在前作基础上进一步兼顾精度与效率。在统一Oriented R-CNN设置下，mAP提高2.07个百分点，FPS约为前作的3.9倍，同时参数量和FLOPs没有增加。

核心技术：让卷积核既会「拉长看」，也会「向外看」

PKINet-v2仍采用四阶段层次化骨干。图像进入网络后，会逐步下采样并扩大通道数；每个阶段堆叠若干PKINet-v2 Block，其中最关键的是负责空间建模的PKS模块。

图2 PKINet-v2总体结构，包括四阶段骨干、PKINet-v2 Block和PKS模块

PKS：五条分支，覆盖不同形状和尺度

Poly-Kernel Scope（PKS）可以理解为一套「异形镜头组」。输入特征先经过5×5逐通道卷积提取局部信息，随后被送入五条并行分支：

一条由1×19和19×1卷积串联构成的轴向条带分支，重点观察桥梁、船舶等狭长结构；

三条核尺寸为7×7、5×5和3×3的稀疏方形分支，用较低成本扩大上下文范围；

一条稠密3×3分支，保留中心区域纹理和微小目标细节。

五条分支组合后，形成一种「层次化渐密」的感受野：外围覆盖范围大，越靠近中心采样越密。这样，网络既能看见目标整体，也不至于把局部纹理冲淡。

HKR：训练时五路并行，部署时合成一路

多分支有利于学习，却未必适合部署。若推理时逐条执行，会产生多次kernel launch、中间特征生成和重复内存访问。

Heterogeneous Kernel Re-parameterization（HKR）的思路很直接：先把每条卷积分支与其BN层融合，再把不同尺寸、不同膨胀率的方形核映射到统一的19×19网格；横向与纵向条带分支也可通过逐通道外积变成等价的19×19卷积核。最后，所有权重与偏置相加，得到一个单分支大核。

图3 左侧为PKS的层次化渐密感受野，右侧为HKR等价融合过程

这不是用一个小模型去近似原模型，而是对计算图做严格等价变换。因此，HKR前后模型输出和mAP保持一致，速度收益主要来自减少碎片化执行和内存流量。

实验结果

DOTA-v1.0：精度与速度同步前进

在标准设置下，PKINet-v2-S达到80.46 mAP，高于Strip RCNN-S的80.06和PKINet-v1-S的78.39。官方代码仓库还提供PKINet-v2-S-Sqrt5配置，在相同数据集的单尺度设置下达到80.75 mAP。

类别层面，Bridge类别从PKINet-v1-S的55.81提高到57.72；Small Vehicle和Soccer Ball Field分别达到81.21和71.97，说明同一骨干能够同时处理高长宽比目标、密集小目标和大尺度目标。

论文表3 DOTA-v1.0单尺度训练与测试结果

不只DOTA：船舶和更广泛遥感场景同样有效

在DOTA-v1.5上，PKINet-v2-S取得73.57 mAP，相比PKINet-v1-S提高2.10个百分点；在DIOR-R上取得69.40 mAP，相比前作提高2.37个百分点。

面向任意方向船舶检测的HRSC2016上，模型取得90.75 mAP(07)和98.84 mAP(12)。这组提升不如DOTA上的幅度大，但仍表明混合核设计能够稳定适应细长船舶目标。

论文表5-6 PKINet-v2在HRSC2016与DIOR-R上的结果

越「奇形怪状」的目标，提升越明显

研究团队进一步按目标长宽比和相对面积进行分桶。与PKINet-v1-S相比，在长宽比3-4和6-7区间，PKINet-v2-S的mAP分别从36.59、19.60提高到45.21、26.18，提升达到8.62和6.58个百分点。

在最小目标区间，mAP由12.98提高到13.43；在最大目标区间，则由69.50提高到71.39。也就是说，PKS不仅对细长目标有效，对极端尺寸变化也保持了较稳定的适应能力。

论文表8 不同目标长宽比与相对尺寸区间的性能分析

定性结果也呈现出类似趋势：面对狭长目标、密集小目标以及多尺度目标同时出现的场景，PKINet-v2相比PKINet-v1、Strip RCNN和LSKNet出现的漏检更少。

图4 DOTA-v1.0可视化对比：上半部分对应几何复杂性，下半部分对应空间复杂性

消融实验：混合核负责精度，HKR负责速度

如果只保留dense、strip或sparse分支，模型分别得到78.57、79.62和79.36 mAP；三类形态组合后的Hybrid设计达到80.11 mAP。这说明条带核与方形核不是简单堆叠，而是在不同目标形态和尺度上形成互补。

HKR则主要贡献部署效率：PKINet-v2-T的FPS从46.2提高到58.0，PKINet-v2-S从43.4提高到54.6，而两种模型的mAP均保持不变。

论文表9 核形态、膨胀率、分支数量和HKR的消融实验

总结与应用展望

PKINet-v1先用并行多尺度卷积和CAA验证了Poly-Kernel路线处理尺度变化与多样上下文的潜力；PKINet-v2沿着这一起点，把复杂几何建模、多尺度上下文聚合和高效部署进一步统一到同一个骨干中。

从方法上看，PKS让模型同时拥有适合细长目标的条带感受野、适合规则目标的方形感受野，以及面向微小纹理和大范围场景的不同尺度；HKR则把训练期的结构复杂性折叠为部署期的单分支算子。

这类能力可为航空与卫星影像中的飞机、船舶、车辆、桥梁、港口和运动场检测提供基础支撑，并进一步服务于城市规划、环境监测、灾害管理和大范围遥感影像自动解译。

不过，论文中的失败案例也显示，极小目标、严重模糊、显著遮挡、紧密排列以及外观高度相似的目标仍可能出现漏检或误分类。

未来，除继续提升困难样本的细粒度特征建模外，PKINet-v2还可进一步验证在语义分割、变化检测、场景分类，以及无人机、边缘设备和星上平台等具体硬件环境中的适用性。

参考资料：

https://arxiv.org/pdf/2603.16341

编辑：LRST

性能芯片测试 C

声明：本文转载自新智元，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里查看更多信息！

破解遥感目标的形状与尺度难题，PKINet二代推理提速近4倍！

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。 按下 Ctrl+D 或 ⌘+D 收藏本站。

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。