明光声测管厂
网络通常看起来与左边的那个类似:下层的每个***元都与上层每个***元相连,但这意味着我们需要将许多浮点数相乘。理想情况下,我们只需要将每个***元连接到其他的几个***元上就可以省去一些乘法;这就是所谓的“稀疏”网络。
稀疏模型更容易压缩,而且我们可以在推断时跳过0值以改进推断延迟。
如果可以根据***元的贡献大小对网络中的***元进行排序,那么就可以将排名较低的***元从网络中移除,从而得到一个更小、更快的网络。
获得更快/更小的网络,对于在移动设备上运行这些深度学习网络非常重要。
例如,可以根据***元权重的L1/L2范数进行排序。在修剪之后,准确性会下降(如果排序较合理,可则能不会下降太多准确率),并且网络通常是迭代地训练-修剪-训练-修剪以较大程度保证模型的准确率。如果我们一次修剪得太多,网络可能会受到严重***,无法***准确率。因此在实践中,这是一个迭代的过程——通常称为“迭代剪枝”:修剪/训练/重复。
版权所有©2025 产品网