CNN景象匹配算法的加速设计与FPGA实现
TP391; 基于卷积神经网络的景象匹配算法较传统方法具有更高的匹配精度、更好的适应性以及更强的抗干扰能力.但是,该算法有海量的计算与存储需求,导致在边缘端部署存在巨大困难.为了提升计算实时性,文中设计并实现了一种高效的边缘端加速计算方案.在分析算法的计算特性与整体架构的基础上,基于Winograd快速卷积方法,设计了一种面向特征匹配层的专用加速器,并提出了利用专用加速器与深度学习处理器流水线式计算特征匹配层和特征提取网络的整体加速方案.在Xilinx的ZCU102开发板上进行实验发现,专用加速器的峰值算力达到576GOPS,实际算力达422.08GOPS,DSP的使用效率达4.5Ope-ra...
Gespeichert in:
Veröffentlicht in: | 计算机科学 2023, Vol.50 (11), p.8-14 |
---|---|
Hauptverfasser: | , , , , , , |
Format: | Artikel |
Sprache: | chi |
Online-Zugang: | Volltext |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | TP391; 基于卷积神经网络的景象匹配算法较传统方法具有更高的匹配精度、更好的适应性以及更强的抗干扰能力.但是,该算法有海量的计算与存储需求,导致在边缘端部署存在巨大困难.为了提升计算实时性,文中设计并实现了一种高效的边缘端加速计算方案.在分析算法的计算特性与整体架构的基础上,基于Winograd快速卷积方法,设计了一种面向特征匹配层的专用加速器,并提出了利用专用加速器与深度学习处理器流水线式计算特征匹配层和特征提取网络的整体加速方案.在Xilinx的ZCU102开发板上进行实验发现,专用加速器的峰值算力达到576GOPS,实际算力达422.08GOPS,DSP的使用效率达4.5Ope-ration/clock.加速计算系统的峰值算力达1 600GOPS,将CNN景象匹配算法的吞吐时延降低至157.89ms.实验结果表明,该加速计算方案能高效利用FPGA的计算资源,实现CNN景象匹配算法的实时计算. |
---|---|
ISSN: | 1002-137X |
DOI: | 10.11896/jsjkx.221100104 |