当前位置:首页 > 科技文档 > 计算机硬件技术 > 正文

面向飞腾处理器平台的快速卷积算法优化

上海理工大学学报 页数: 10 2024-12-09
摘要: 为解决卷积神经网络难以在计算资源受限设备上部署的问题,面向国产FT-2000/4多核处理器提出一种高性能的快速卷积算法FastInfer。采用分块策略优化通用矩阵乘法,将处理器访问频率高的数据存入更靠近处理器的缓存中,从而提高计算过程中的访存效率。配合分块方案设计实现高性能的矩阵乘法微内核,使用向量外积运算更新数据,提高计算访存比,实现最大程度掩盖访存指令的延迟。最终实验结果表... (共10页)

开通会员,享受整站包年服务