点击蓝字
关注我们
关注并星标
从此不迷路
计算机视觉研究院
ID|计算机视觉研究院
https://pmc.ncbi.nlm.nih.gov/articles/PMC12549665/
计算机视觉研究院专栏
Column of Computer Vision Institute
YOLO算法模型被广泛用于表面缺陷检测,为识别材料表面的各类缺陷和瑕疵提供了一种稳健且高效的方法。
图1
在训练过程中,输入由骨干网络和辅助可逆训练分支同时处理,以确保丰富的梯度流;在推理过程中,舍弃辅助路径以提高速度。特征融合通过RepNCSPELAN模块完成,该模块融合了CSPNet设计和可重参数化的GELAN架构。这产生总共六个多尺度特征图,经检测头处理后生成最终预测。
显然, YOLOv9展示了一个平衡良好的架构,既增强了训练动态性,又提高了推理效率,为骨干网络替换和性能基准测试奠定了坚实基础。在本文的实验部分,为探究不同特征提取能力的影响,将YOLOv9的整个GELAN骨干网络替换为六种代表性网络架构:ResNet50、GhostNet、MobileNetV4、FasterNet、StarNet和RepViT。为确保模型结构的一致性和兼容性,每个骨干网络输出具有三种不同下采样尺度(8×、16×、32×)的多尺度特征图,对应YOLOv9-C颈部网络的P3、P4和P5输入。自定义骨干网络和特征适配模块的整体集成过程如图2所示。
图2
在实际对接过程中,由于不同骨干网络的原始通道数存在差异,我们在每个输入尺度后引入一个1×1卷积层,以线性映射通道数,使其与YOLOv9-C颈部网络期望的输入维度一致,即P3为256通道,P4为512通道,P5为1024通道。调整后的特征图输入颈部网络完成多尺度特征融合,然后传递到检测头。此外,所有替代主干保留步长=8的特征图(即P3层),用于连接辅助可逆分支,该分支仅在训练阶段启用,以提高梯度传播质量和模型收敛速度,在推理阶段移除,且不增加推理开销。通过这种方式,我们在YOLOv9-C框架下实现了六种主干结构的无缝替换和统一接口,确保结构之间的可比性,为后续性能评估和分析提供基础。每个骨干网络对应的适配层详细架构信息见表1。
表1
骨干网络集成
ResNet
ResNet最初由He等人在微软研究院提出,是一种经典的深度卷积网络,通过捷径(恒等)连接引入残差学习,以解决深度架构中的梯度消失问题。与传统的层序堆叠网络不同,ResNet通过学习残差映射,实现了跨层的直接梯度流。假设输入f(x)经过残差网络和短路连接,在激活函数的第二层之前添加,那么输出变为f(x)+x。在ResNet中,这种输出等于输入的操作被称为恒等映射。该操作使网络在最坏情况下也能获得与输入相同的输出。新增的层不会学习任何内容,只是简单复制输入的特征,至少使网络不会出现性能退化。其核心操作的数学表达式为:
yl=h(xl)+F(xl+wl),xl+1=f(yl)
从浅层l到深层L的累积特征学习可表示为:
在本研究中,ResNet50被用作YOLOv9框架内的骨干网络。其深度残差架构通过恒等映射缓解梯度消失问题,增强了特征提取能力,尤其适用于大型或复杂缺陷。与YOLOv9的PGI模块的整合进一步有助于在训练期间保留特征信息。受益于广泛的预训练,ResNet50提高了对不同缺陷类型的检测准确率。然而,它的计算成本较高,对于224×224的输入,有大约2560万个参数和41亿次浮点运算,再加上其结构复杂性,增加了在有限数据集上过拟合的风险,降低了其在实时或资源受限应用中的适用性。
GhostNet
GhostNet是一种轻量级卷积神经网络架构,旨在减少计算冗余的同时保持有效的特征表示。它引入了Ghost模块,该模块首先通过标准卷积生成一组固有特征图,然后通过低成本的线性运算生成额外的“幽灵”特征图。这种方法在不会严重影响准确率的情况下,显著减少了浮点运算次数(FLOPs)和参数数量。Ghost模块使用与标准卷积相同的超参数(例如,滤波器大小、步幅、填充)来保持输出的空间维度。
MobileNetV4
MobileNetV4于2024年推出,通过整合通用倒置瓶颈(UIB),在轻量级神经网络设计方面取得了显著进展。这个统一模块整合了传统倒置瓶颈、ConvNeXt和前馈网络(FFN)的元素,增强了特征表示能力和结构灵活性。UIB优化了瓶颈设计,以实现更好的参数效率,并在不同硬件平台上具备更强的适应性。MobileNetV4的一个关键组件是深度可分离卷积,它将标准卷积分解为空间聚焦的深度操作和通道维度的逐点操作。这种分离在保持有效特征提取(尤其是检测细微表面异常时)的同时,降低了计算复杂度。结合MobileMQA注意力模块和优化的神经架构搜索(NAS)策略,MobileNetV4在准确率和效率之间实现了接近帕累托最优的权衡。在我们的实现中,MobileNetV4替换了YOLOv9中的GELAN骨干网络,同时保留了原始的颈部和检测头。实验结果表明,它在识别划痕、凹坑和腐蚀等表面级缺陷方面性能有所提升,使其成为计算资源有限的实时工业检测场景的极具吸引力的选择。
FasterNet
FasterNet通过引入局部卷积策略——部分卷积(PConv),解决了低浮点运算(FLOP)轻量级网络的低效问题,该策略显著减少了冗余内存访问和计算开销。与对所有输入通道进行操作的标准卷积不同,PConv仅对选定的子集进行空间卷积,而保持其余通道不变。假设输入和输出特征图的大小均为(c,h,w),核大小为k×k,,标准卷积的浮点运算次数为h×w×k2×c2,,而PConv的浮点运算次数则减少到h×w×k2×c2p,,其中Cp表示参与部分卷积的通道数。
为了弥补潜在的特征信息损失,在每个PConv之后添加了逐点卷积(PWConv),形成一个高效的特征变换单元。FasterNet由四个分层阶段组成,每个阶段包含多个由一个PConv和两个PWConv层组成的块,以及用于空间下采样和通道扩展的嵌入或合并层。
当作为骨干网络集成到YOLOv9框架中时,FasterNet有效降低了推理延迟,并提高了边缘设备上的处理速度。它在准确率、计算效率和模型复杂性之间实现了良好的权衡,尤其在表面缺陷检测场景中,快速响应和有限的硬件资源至关重要。
StarNet
StarNet引入了一种名为“星形操作(StarOperation)”的新型非线性变换机制,该机制通过逐元素乘法,无需依赖传统矩阵乘法,即可将特征隐式投影到高维空间。与传统的基于点积的线性变换不同,星形操作直接将输入的两个仿射变换的对应元素相乘,以极少的参数增加实现非线性特征交互。
StarNet采用了传统的分层结构,在每个阶段降低空间分辨率并将通道宽度加倍。为满足推理效率要求,使用分组归一化替代层归一化,并将其置于深度卷积层之后,以在部署时实现融合。此外,遵循MobileNeXt的设计原则,在每个块的末尾添加深度卷积以进一步增强表示能力。
当集成到YOLOv9框架中时,StarNet在捕捉复杂缺陷特征方面表现出强大的能力,同时保持轻量级设计。对比实验表明,StarNet在准确率和推理速度上均优于MobileNetV3、FasterNet等多个紧凑型网络,凸显了其在实际表面缺陷检测任务中的实用价值。
RepVit
视觉Transformer(ViT)是谷歌于2020年提出的一种将Transformer直接应用于图像分类的模型。RepViT是受ViT启发的卷积架构,旨在将自注意力的长程建模能力与CNN的计算效率相结合。尽管ViT通过全局自注意力实现了具有竞争力的性能,但其缺乏归纳偏置且训练要求高,这限制了它在小数据集或移动设备上的实用性。为解决这些局限性,RepViT采用了MetaFormer结构,将标记混合和通道混合分离,同时完全依赖卷积操作,使其非常适合轻量级部署。
每个RepViT块在MobileNetV3的基础上进行了改进,通过解耦空间和通道交互。具体来说,3×3深度卷积之后是用于通道维度处理的1×1卷积,并且在深度层之后插入可选的挤压-激励(SE)模块以增强特征重校准。为进一步优化推理效率,RepViT采用结构重参数化技术,在部署时将多分支训练结构转换为更简单的单路径等效结构。该技术减少了内存访问开销,使模型能够以极低的延迟运行。实验结果表明,RepViT在包括ImageNet分类、COCO目标检测和ADE20k语义分割在内的多个视觉任务中,性能优于现有的轻量级ViT模型。
在YOLOv9框架中,用RepViT替换默认骨干网络后,无论是粗粒度还是细粒度缺陷,检测准确率都得到了提升,同时保持了较低的推理时间和参数数量。
PART/4
实验及可视化
数据集介绍
本研究采用NEU-DET热轧带钢数据集和GCI10-DET金属表面缺陷数据集作为基准,以评估不同骨干网络的特征提取能力。
NEU-DET数据集(Song和Yan,2013)由中国东北大学的宋克臣团队制作,包含1800张热轧带钢表面缺陷图像,分为六种类别:龟裂(Cr)、夹杂(In)、斑块(Pa)、麻点表面(Ps)、氧化铁皮压入(Rs)和划痕(Sc)。每个缺陷类别包含300张分辨率为200×200像素的图像。
图3
类内存在较大差异,如图3所示,划痕可能呈水平、垂直或对角线分布。同时,类间也存在相似性;例如,氧化铁皮压入、裂纹和凹痕具有重叠特征。数据集作者提供了每个缺陷的类别和位置标注,这为缺陷检测任务提供了便利。
GCI10-DET数据集由天津大学于2020年发布,将评估扩展到更广泛的金属表面缺陷类型。它包含230张灰度图像,其中有3563个标注目标,属于十个类别:冲孔(Ph)、焊缝(Wl)、月牙裂纹(Crg)、水斑(Ws)、油斑(Os)、丝斑(Ss)、夹杂(In)、轧制坑(Rp)、折痕(Cr)和腰折痕(Wf)。所有标注缺陷都提供了边界框标注,仅八张图像未标注。与NEU-DET不同,GCI10-DET没有预定义的训练/验证/测试划分,允许灵活的实验配置。
图4
图4展示了带有标注的代表性示例。通过覆盖钢板上更多样的缺陷模式,GCI10-DET为评估检测模型的鲁棒性和泛化能力提供了补充证据。
改进型骨干网络分析
为提升检测性能和计算效率,我们评估了若干轻量级或混合结构的骨干网络,以替代ResNet50,相关结果见图5。
作为骨干网络,GhostNet在轻量级和检测性能之间实现了显著平衡。其参数规模为41.2M,在对比的六个网络中位列第二轻,仅略高于StarNet的41.4M,却比传统残差网络ResNet50少0.398。在计算复杂度方面,GhostNet的浮点运算次数为190.2GFLOPs,比ResNet50低0.286,计算效率仅次于StarNet。这一优势源于GhostNet独特的特征生成机制,它通过分割原始特征通道并应用线性变换来生成“幻影特征”,在保留关键信息的同时大幅减少了冗余计算。
在检测性能指标上,GhostNet的mAP50达到65.5%,显著优于ResNet50和MobileNetv4,表明其具有较强的多尺度缺陷定位能力。然而,其61.0%的分类精确率低于MobileNetv4的73.5%,这可能是由于均匀背景中幻影特征引入的噪声干扰所致。召回率为62.4%,F1分数为0.62,处于中等水平,反映出其在漏检和误检之间的折中优化。与表现最佳的RepViT相比,GhostNet在绝对精度上存在差距,但它的参数规模和计算复杂度分别降低了0.11和0.078,使其更适用于计算能力有限的工业场景。此外,GhostNet的召回率优于StarNet,表明其缺陷覆盖范围更具鲁棒性。
然而,它对Cr缺陷的特征提取能力明显较弱,mAP50仅为0.146。类似地,对Sc缺陷的特征提取能力也有所降低,mAP50为77.7%。这些结果表明,尽管GhostNet在计算速度和参数效率方面具有明显优势,但它在某些检测能力上做出了妥协。
MobileNetv4表现出“高精度但召回率有限”的显著特点,在带钢表面缺陷检测任务中是如此。其参数规模为45.3M,计算工作量为207.9GFLOPs。尽管它比ResNet50显著更轻量,但尚未达到GhostNet的极致压缩程度。该网络在六个骨干网络中精确率排名第一,为73.5%,比排名第二的StarNet提高了0.112,表明其在区分真实缺陷与背景噪声方面具有独特优势。然而,其59.6%的召回率排名最后,暴露出严重的漏检问题,这可能与其深度可分离卷积对浅层特征分辨率的过度压缩有关。在综合检测性能方面,MobileNetv4的mAP50为64.7%,略低于类似的轻量级网络FasterNet和GhostNet,反映出其多尺度缺陷定位能力存在不足。同时,它在Pa、Ps和Bs缺陷的特征提取方面实现了平衡,mAP50分数分别为89.6%、88.5%和81.0%,在提取Cr缺陷特征方面与Resnet50网络表现相当,尽管mAP仍低至20.4%。然而,由于召回率和综合性能不足,有必要优化特征保留策略和损失函数设计。
相反,FasterNet网络在这些网络中展现出最佳的整体召回性能,记录的召回率为70.5%。它在缺陷特征提取方面表现出显著提升,尤其是对Cr缺陷,其mAP50达到32.6%,比Resnet50等网络大约提高了0.12。在提取Pa和Ps缺陷特征方面的性能也略有提升,分别提高了0.07%和8%。然而,它对In和Rs缺陷的特征提取能力仍然较弱,In的mAP50分数下降了约3%,Rs下降了1.2%。StarNet网络在参数数量方面表现平庸,比GhostNet多0.2M。然而,参数的增加并未转化为更好的缺陷特征提取能力,因为其整体mAP50仍比GhostNet低0.7%。RepViT在该任务中表现出领先的整体性能。该架构基于视觉Transformer设计,在六个骨干网络中mAP50排名第一,为68.8%,比第二名FasterNet高0.8%。特别是,它在In缺陷和Rs缺陷的检测中分别达到了69.9%和50.5%的AP值,验证了其表征多尺度纹理特征的能力。其68.6%的召回率和0.65的F1分数也排名第一,表明它在漏检控制和精确率-召回率平衡方面具有显著优势。这种性能提升源于RepViT的混合注意力-卷积协作机制:局部窗口自注意力用于捕捉跨区域语义关联,而轻量级卷积用于保留微观缺陷的细节信息。值得注意的是,尽管RepViT的参数数量和计算复杂度略高于GhostNet,但其针对工业缺陷特征的优化设计使其计算资源投入产出比显著优于传统网络。该网络为高复杂度缺陷检测场景提供了最佳解决方案。在此,我们呈现RepViT的检测结果,如图7所示。
图7
PART/5
结论
本研究对用于表面缺陷检测的多种骨干网络进行了基准测试,并阐明了深度学习的最新进展如何与实际检测需求相契合。研究结果为在工业约束下选择和优化骨干网络提供了实用依据,也为后续针对生产场景定制的骨干网络优化研究奠定了基础。为理解失败模式,我们分析了每类特征的分布和误差。数据集可视化揭示了强烈的中线空间先验,以及以小型、极端长宽比实例为主的特点;龟裂由于尺寸微小、几何细长且局部对比度低,极具挑战性,会导致近漏检的交并比(IoU)误差和非极大值抑制(NMS)冲突。我们的贡献是一个可复现的选择框架,而非另一种检测器变体:任何未来的模型(如YOLOv10/YOLOv11或基于Transformer的实时检测器)都可纳入同一协议以扩展分析矩阵。尽管结果颇具前景,本研究仍存在若干有待进一步研究的局限性。一个关键局限性是,在具有挑战性的场景(微小、低对比度、极端长宽比缺陷)下,持续存在的近漏检IoU误差和NMS冲突仍未得到解决。未来的工作将:
l扩展跨数据集验证,以评估这两种误差模式在不同数据分布下出现的频率;
l纳入更多骨干网络和无NMS范式,以减少密集排列的细长实例之间的抑制冲突;
l在我们的统一协议内探索定向边界框/分割和阈值校准,以改善决策边界附近的定位并缓解临界(近漏检)失败,同时不改变本研究的核心结论。
此外,评估完全基于NEU-DET和GC10-DET数据集,可能无法充分涵盖现实工业环境中遇到的表面缺陷的多样性和复杂性。因此,该方法在更多样或易受噪声影响的场景中的泛化性仍有待验证。此外,数据集的缺陷类别相对平衡,这与实际生产环境中常见的类别不平衡形成对比。未来的研究应探索在类别分布不平衡情况下的缺陷检测以及数据增强策略,以弥补这一差距。
有相关需求的你可以联系我们!
转载请联系本获得授权
计算机视觉研究院学习群等你加入!
ABOUT
计算机视觉研究院
计算机视觉研究院主要涉及深度学习领域,主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架,提供论文一键下载,并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!
转载请注明来自海坡下载,本文标题:《折中优化(YOLOv9优化表面缺陷检测先进骨干网络模型的作用)》
京公网安备11000000000001号
京ICP备11000001号
还没有评论,来说两句吧...