时间:2024-08-01 来源:网络搜集 关于我们 0
作者|王言治
来源 | AI科技大本营(ID:rgznai100)
深度神经网络(DNN)在图像、语言处理等领域获得了巨大成功,而如何将这些网络部署在ASIC、FPGA等嵌入式设备仍是热门研究方向。结构搜索,以及传统的剪枝、量化等压缩方法,都可以有效减小模型的内存占用和计算量,故而已经成为模型部署前的必经工序。其中模型的量化操作简单,收益直观,可以在损失很小的精度的前提下轻松将模型大小压缩数倍,成倍的提升运算速度,故而一直是模型压缩的热点研究方向。
近期美国东北大学王言治教授和林雪教授研究组提出了一种组合式量化方法,在获得更高准确率的同时,最大限度提升了FPGA的硬件利用率,实现了SOTA的准确率-推理速度共同优化。
该文章提出的Mixed Scheme Quantization (MS...