AAAI2025 | FBRT-YOLO:目标检测新方法,轻量高效,已开源!
在 Visdrone、UAVDT 和 AI-TOD 数据集上的实验结果表明,FBRT-YOLO 在不同模型规模下均优于现有实时检测器,实现了精度与效率的良好平衡,为航拍图像实时检测提供了更有效的解决方案。轻量化设计:精简冗余计算,相比YOLOv8系列,参数量减少最高74%,推理速度提升显著。AI-TOD 数据集实验结果:该数据集包含大量小目标,FBRT-YOLO相比基线模型,参数数量减少74%,G
标题:FBRT-YOLO: Faster and Better for Real-Time Aerial Image Detection
论文地址:https://arxiv.org/abs/2504.20670
代码地址:https://github.com/galaxy-oss/FCM
导读:航空图像检测中,小目标因分辨率低、背景干扰多等问题难以精准定位,现有方法在实时性与精度间难以平衡。针对这一挑战,北京理工大学团队提出FBRT-YOLO,旨在优化小目标检测性能,同时满足嵌入式设备的实时性需求。
通过编码浅层空间位置信息并融入深层语义特征,缓解小目标信息丢失问题,提升定位精度。结合多尺度卷积核,增强网络对多尺度目标的感知能力,减少背景噪声干扰。轻量化设计:精简冗余计算,相比YOLOv8系列,参数量减少最高74%,推理速度提升显著。该工作为无人机、遥感等实时检测场景提供了高效解决方案,代码已开源,具备较强的工程落地价值。
研究动机
深度神经网络虽在低分辨率自然图像检测中取得进展,但在高分辨率航拍图像检测上存在效率和精度问题。航拍图像检测面临小目标或被背景遮挡目标检测困难,以及在计算资源受限设备上平衡精度与实时性的挑战。增加图像分辨率会加重计算负担,特征金字塔等方法虽有改进,但骨干网络仍难以整合和保留浅层信息,导致特征不匹配,因此需要更有效的网络设计。
创新点
新型实时检测器:提出FBRT-YOLO系列实时检测器,在不同模型规模下,实现了精度和效率的高度平衡。
特征互补映射模块(FCM):将丰富语义信息与精确空间位置信息融合,增强深度网络中小目标的特征匹配。
多内核感知单元(MKP):取代最终下采样操作,增强多尺度目标感知,简化网络结构以提高效率。
冗余驱动网络设计:减少传统检测器的固有冗余,加快网络运行速度。
方法
整体结构:FBRT-YOLO 包含两个核心轻量级模块FCM和MKP,同时对基线网络进行精简,去除非关键或冗余计算(对应图3)。
特征互补映射模块(FCM):采用分割、变换、互补映射和特征聚合策略。首先通过公式
将输入特征通道分割为两部分;接着通过
分别进行语义和位置信息的空间映射;然后通过通道交互和空间交互进行互补映射,计算通道信息权重:
和空间信息权重:
最后通过公式:
进行特征聚合,将浅层空间位置信息传播到网络深层,缓解骨干网络下采样过程中目标空间位置信息的丢失。
多内核感知单元(MKP):将不同大小的卷积核依次连接,并在不同尺度的核之间加入逐点卷积,用公式:
表示,其中代表不同大小卷积核的深度卷积,A代表逐点卷积变换,在实验中k =3,以此检测不同尺度目标,增强上下文和小目标信息的特征表示。
针对性减少冗余驱动的网络设计:针对传统实时检测模型在高分辨率航拍图像检测中的结构冗余问题,先进行分组卷积空间下采样,再用逐点卷积进行通道扩展,通过公式
计算参数,与标准卷积参数计算
对比,有效减少参数数量。
实验
实验设置:在Visdrone、UAVDT和AI-TOD这三个基于航拍图像的目标检测基准数据集上开展实验。
Visdrone 数据集实验结果:将 FBRT-YOLO 与现有实时检测器对比(见表1),FBRT-YOLO 在不同模型规模下性能和检测效率均更优。如小模型 FBRT-YOLO-N/S 相比 YOLOv8-N/S,参数数量分别减少 72% 和 74% ,平均精度(AP)分别提升 0.6% 和 2.3%。
与其他先进方法对比(见表2),FBRT-YOLO的 AP达到30.1% ,能有效检测航拍图像。通过可视化热图(见图4),发现 FBRT-YOLO对小目标和密集目标的关注度更高,展示了其在增强网络空间和多尺度信息方面的优势。
UAVDT 数据集实验结果:定量结果(见表3)显示,FBRT-YOLO的AP为 18.4% ,超越了GLSAN和CEASC等现有方法。在复杂背景下,FBRT-YOLO能有效传播目标空间信息,提升特征表示,检测性能显著优于基线模型(见图5)。
AI-TOD 数据集实验结果:该数据集包含大量小目标,FBRT-YOLO相比基线模型,参数数量减少74%,GFLOPs降低20%,同时AP50提升2.2%,AP提升1.1%(见表4),验证了其在小目标检测方面的优越性。
消融实验:以YOLOv8-S为基线模型,在Visdrone数据集上进行消融实验。
关键组件的作用:减少基线模型固有冗余,优化后参数减少18%,计算负载降低11% ,但精度略有下降。引入FCM 模块使AP50提高1.4% ,并减少网络计算资源;用MKP单元替换骨干网络最后一层下采样操作,AP提高1.6%,且训练时网络收敛更快(见表5)。
映射关系的影响:研究发现,使用通道或空间映射的模型优于无映射关系的模型,两者结合效果更佳,相比无映射关系的模型,AP50提高2.0%(见表6)。
分割比例的影响:随着下采样过程推进,空间特征部分(进行逐点卷积)比例增加实验效果更好。当 α 取 (0.75, 0.75, 0.25, 0.25) 时,在更深网络中保留更多空间位置信息,有利于目标特征的定位和匹配(见表7)。
内核大小的影响:较小内核提供的感受野有限,无法建立强上下文关联;较大内核引入大量背景噪声,不利于检测。采用不同大小卷积核并在不同内核间引入逐点卷积以整合跨尺度空间信息,能达到最佳性能(见表8)。
总结
论文提出FBRT-YOLO 实时检测器,用于解决航拍图像检测中精度与效率难以平衡的问题。当前方法在高分辨率航拍图像检测上存在不足,小目标检测困难且计算资源受限。该研究创新地引入特征互补映射模块(FCM)和多内核感知单元(MKP)两个轻量级模块。FCM 通过将浅层空间位置信息融入深层语义信息,缓解信息不平衡问题;MKP 利用不同大小卷积核增强多尺度目标感知。同时,优化网络设计减少冗余。在 Visdrone、UAVDT 和 AI-TOD 数据集上的实验结果表明,FBRT-YOLO 在不同模型规模下均优于现有实时检测器,实现了精度与效率的良好平衡,为航拍图像实时检测提供了更有效的解决方案。
以上仅供学习交流参考。
感谢阅读!可微信搜索公众号【AI启智汇】更多更及时获取AI分享。

GitCode 天启AI是一款由 GitCode 团队打造的智能助手,基于先进的LLM(大语言模型)与多智能体 Agent 技术构建,致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话,还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力,真正做到“一句话,让 Al帮你完成复杂任务”。
更多推荐
所有评论(0)