模型压缩和推理加速 (Model Compression & Inference Acceleration)

随着深度神经网络模型的复杂度越来越高，除了训练阶段需要大量算力外，模型推理阶段也较多的资源。在深度学习落地应用中，受部署环境的影响，尤其是在边缘计算场景中，有限的计算资源成为了复杂模型的应用壁垒。复杂模型的部署问题突出表现在三个方面，如下图所示：速度：实时响应效率的要求，过长的响应耗时会严重影响用户体验。存储：有限的内存空间要求，无法加载超大模型的权重从而无法使用模型。能耗：移动场景的续航要求，大量的浮点计算导致移动设备耗电过快。针对上述三类问题，可以从模型压缩和推理加速两个角度出发，在保持一定模型精度的情况下，让模型速度更快、体积更小、能耗更低。模型压缩常用的模型压缩方法有如下几种类型：剪裁……