基于位置可学习视觉中心机制的零售商品检测方法

TP18; 针对零售商品包装变形和重叠使得难以有效捕捉显著且多样化的特征信息,导致检测精度不高的问题,设计了位置可学习视觉中心(LLVC,location learnable visual center)机制,对YOLOX-s进行改进,取得了更高的检测精度.为有效应对商品包装变形和重叠现象,首先,通过轻量级多层感知机融合不同特征通道上的信息,以充分捕获全局上下文信息;接着,通过设计的LLVC增强局部特征表示能力,并利用空间信息为局部特征分配可学习的权重,提高辨别性局部特征的关注程度;最后,将交并比(IoU,intersection over union)损失函数替换为中心交并比(CIoU,ce...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:物联网学报 2023, Vol.7 (4), p.142-152
Hauptverfasser: 吕晓华, 魏铭辰, 刘立波
Format: Artikel
Sprache:chi
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:TP18; 针对零售商品包装变形和重叠使得难以有效捕捉显著且多样化的特征信息,导致检测精度不高的问题,设计了位置可学习视觉中心(LLVC,location learnable visual center)机制,对YOLOX-s进行改进,取得了更高的检测精度.为有效应对商品包装变形和重叠现象,首先,通过轻量级多层感知机融合不同特征通道上的信息,以充分捕获全局上下文信息;接着,通过设计的LLVC增强局部特征表示能力,并利用空间信息为局部特征分配可学习的权重,提高辨别性局部特征的关注程度;最后,将交并比(IoU,intersection over union)损失函数替换为中心交并比(CIoU,centered intersection over union),并在此基础上引入功率参数α,有效降低了漏检率.实验结果表明,所提方法在零售商品识别(RPC,retail product checkout)数据集上取得91.3%的准确率,相比YOLOX-s提高了2.2%,并优于目前主流的轻量级目标检测算法;同时每秒帧率(FPS,frame per second)为97 frame/s,模型大小为9.48 MB,能够在计算资源受限的场景下,准确且实时地进行零售商品检测.
ISSN:2096-3750
DOI:10.11959/j.issn.2096-3750.2023.00366