深度学习模型压缩加速-多媒体可信感知与高效计算教育部重点实验室

深度学习模型压缩加速

首页 >研究方向 >高效智能中台 >深度学习模型压缩加速

应用前景

深度神经网络压缩技术对深度神经网络的广泛应用具有重要的推动作用，尽管深度神经网络在很多研究领域都取得了很好的效果，但取得的这些成果是建立在大量计算和高速大容量内存基础之上的，而这些深度神经网络框架是部署在高性能服务器或者集群中的，很难被应用到移动设备中（如手机和浏览器等），只有利用一些压缩技术把大规模的深度神经网络模型压缩到轻量级，才能将其应用到移动设备中。因此，为了能在低功耗端更灵活的应用更多的现有AI领域的研究成果，又不影响深度学习模型性能的情况下，需要加速进行模型压缩与加速的相关方面的研究。

研究内容

拟从四个方面开展研究，包括面向底层视觉任务的模型压缩与加速，模型压缩与硬件架构设计结合，多任务模型的压缩，以及基于权重绝对值的离散二值化网络学习。具体研究内容如下：

面向底层视觉任务的模型压缩与加速：相较于图片分类任务，处理底层视觉任务的深度网络模型的压缩方法有很大的不同。因此需要一些新型的手段进行压缩。比如知识蒸馏作为一种迁移学习的形式，可使小模型尽可能多地学习到大模型的知识，具有方法灵活、不依赖硬件平台的特点，实验室需要解决知识蒸馏方法的压缩比和蒸馏后性能提高等问题。

模型压缩与硬件架构设计结合：目前的压缩与加速方法大多仅从软件层面对模型进行优化，并且不同方法由于使用的硬件平台不同。实验室从完整压缩过程来考虑与硬件的适配问题。将硬件的适配程度作为优化目标之一，设计与硬件更优化的压缩方法与模型。

多任务模型的压缩：目前的压缩与加速方法多是为图片分类任务的卷积神经网络模型设计，然而实际应用中，还有大量其他模型应用于人工智能领域，例如语音识别和机器翻译领域常使用的递归神经网络、知识图谱领域的图神经网络。因此，实验室需要拓展卷积神经网络模型设计的压缩与加速方法拓展到这些网络中。

基于权重绝对值的离散二值化网络学习：近年来，二值化参数量化（1-bit量化）在网络压缩领域获得了长足进展。二值化参数量化学习的关键在于其权重的离散约束（-1,+1），传统基于sign函数的1-bit量化方案，简单地将正值权重量化为+1，负值权重量化为-1，这带来了严重的量化信息损失，限制了1-bit网络的性能。围绕该问题，实验室拟研究基于离散优化的深度模型1-bit量化技术，使得权重的优化依赖于网络自身对精度学习而自动调整，摆脱传统sign函数的弊端。