基于通用计算平台 SM4-CTR 算法并行实现与优化
随着大数据、云计算、5G通信技术的迅速发展, 数据传输安全问题日益凸显, 密码算法的设计和高效实现变得尤为重要, 能高速运行的国产密码算法已成为保护国家安全的关键. 与此同时, 原本只用于图像计算的硬件GPU, 在编程模型CUDA发布后就成为通用的、普及化的算力资源. 本文基于通用的计算机平台, 提出了利用其本地GPU进行CTR工作模式下SM4算法高速加解密的并行实现和优化方案. 实验表明, 本文提出的SM4-CTR并行加解密方案能够有效提高SM4算法的运行效率, 在通用的计算机平台上, 能够达到40倍加速比, 加解密速率达到了14.192 Gbps. 实验中还分析了线程块划分对GPU并行加速...
Gespeichert in:
Veröffentlicht in: | Journal of Cryptologic Research 2022-01, Vol.9 (4), p.663-676 |
---|---|
Hauptverfasser: | , , , , , , , , , |
Format: | Artikel |
Sprache: | chi |
Schlagworte: | |
Online-Zugang: | Volltext |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | 随着大数据、云计算、5G通信技术的迅速发展, 数据传输安全问题日益凸显, 密码算法的设计和高效实现变得尤为重要, 能高速运行的国产密码算法已成为保护国家安全的关键. 与此同时, 原本只用于图像计算的硬件GPU, 在编程模型CUDA发布后就成为通用的、普及化的算力资源. 本文基于通用的计算机平台, 提出了利用其本地GPU进行CTR工作模式下SM4算法高速加解密的并行实现和优化方案. 实验表明, 本文提出的SM4-CTR并行加解密方案能够有效提高SM4算法的运行效率, 在通用的计算机平台上, 能够达到40倍加速比, 加解密速率达到了14.192 Gbps. 实验中还分析了线程块划分对GPU并行加速效果的影响, 最优线程块大小为128到512, 且必须为32的整倍数. 最后, 基于本文实验的结果与其他团队的优化SM4方案进行对比, 包括传统工作模式下利用CPU、GPU优化的方案和利用软件快速实现的方案, 对比结果显示即便之前团队的方案运行的平台硬件条件好于本文实验环境, 文中提出的方案运行速率依然能做到大幅领先. 因此, 本文方案在安全性、运算速率提高的同时适用平台也更加广泛, 在实际生活中针对大数据和个人数据的安全保护中必将发挥巨大的作用. |
---|---|
ISSN: | 2097-4116 2095-7025 |
DOI: | 10.13868/j.cnki.jcr.000540 |