模型压缩和推理加速 (Model Compression & Inference Acceleration)

范叶亮 at 
模型压缩和推理加速 (Model Compression & Inference Acceleration)的配图
随着深度神经网络模型的复杂度越来越高,除了训练阶段需要大量算力外,模型推理阶段也较多的资源。在深度学习落地应用中,受部署环境的影响,尤其是在边缘计算场景中,有限的计算资源成为了复杂模型的应用壁垒。复杂模型的部署问题突出表现在三个方面,如下图所示:速度:实时响应效率的要求,过长的响应耗时会严重影响用户体验。存储:有限的内存空间要求,无法加载超大模型的权重从而无法使用模型。能耗:移动场景的续航要求,大量的浮点计算导致移动设备耗电过快。针对上述三类问题,可以从模型压缩和推理加速两个角度出发,在保持一定模型精度的情况下,让模型速度更快、体积更小、能耗更低。模型压缩常用的模型压缩方法有如下几种类型:剪裁……