• 电路与系统 • 下一篇
陈铠1,贺傍2,滕紫珩1,傅玉祥2,李世平1
CHEN Kai1, HE Bang2, TENG Ziheng1, FU Yuxiang2, LI Shiping1
摘要: 相比于传统循环神经网络(RNN),长短期记忆网络(LSTM)增加了多个门控单元和记忆单元,可以有效解决传统RNN网络梯度消失和梯度爆炸的问题。由于在处理复杂序列依赖性问题上具有优势,LSTM网络广泛应用于机器翻译、情感分析、文本分类等自然语言处理应用中。随着智能应用复杂度增加,LSTM网络层数、隐藏层节点数的增多,对端侧处理器件的存储容量、访存带宽、处理性能的要求也剧烈增加。论文分析LSTM算法特点,设计了高并行流水门计算运算部件,提出了多层次共享数据通路方法,并对LSTM算法硬件实现流程进行优化控制,完成了峰值算力2.144TOPS的LSTM硬件加速器设计,并基于FinFET工艺完成物理实现。流片后板级测试结果表明LSTM硬件加速器运算效率可达95%以上,每TOPS算力的推理帧率达到GTX1080TI GPU的2.8倍以上。