在雷锋网的AI科技评论中,有一篇关于网络结构搜索(NAS)的文章,探讨了如何通过自动化设计神经网络结构来优化模型性能。近年来,NAS在深度学习领域取得了显著成就,不仅减少了人工设计和调整模型结构的负担,而且能够产生比传统方法更高性能的模型。
最近,地平线-华中科技大学计算机视觉联合实验室提出了一种新颖的Differentiable NAS方法——DenseNAS。该方法允许搜索网络中的每个块宽度及其对应的空间分辨率。本文将详细介绍DenseNAS,从其简介、网络规模搜索思路、实现方法以及实验结果等方面进行解读。
论文地址:https://arxiv.org/abs/1906.09607
代码地址:https://github.com/JaminFong/DenseNAS
DenseNAS简介
尽管之前的大多数不同iable NAS工作都集中于操作类型(如卷积、池化等)的搜索,但宽度和深度这样的较大尺寸因素仍然没有得到充分探索。现有的不同iable NAS 方法通常需要构建一个超级网络(super network),包含所有可能要搜到的结构,这使得它们难以直接处理宽度或深度因素。在新的研究中,我们提出了一个名为DenseNas的不同iable Nas方法,它不仅可以在连续可操作空间中有效地进行宽度搜索,还能同时考虑下采样的位置和全局深度。
DenseNas对于网络规模搜索思路
我们认为,可以通过构建一个密集连接的搜索空间,并将其映射到连续可操作空间,以便在优化过程中选择最佳路径。这与传统不同iable Nas策略有所不同,因为它不仅可以灵活地控制每个block内层数,也可以决定哪些block应该被包括进最终模型之中。此外,由于我们使用的是密集连接,每个block都可以根据需要选择不同的输入来源,从而提高整个系统的灵活性。
方法介绍
密集连接搜索空间构建
我们的search space被划分为几个层次:layer(层)、block(块)和network(网络)。每个layer包含各种候选操作,而每个block由层组成,其中头层是并行处理数据转换至相同通道数和分辨率,而堆叠层则是串行执行,并且各层操作都是可变动性的。除了固定数量的blocks,我们还引入更多具有不同的widths但同样数量blocks,这样做增强了search space中的自由性,使得最终只有一部分blocks会被选取加入最终模型。
搜索空间连续性松弛
为了使search process更加连贯,我们给予了layer level operation candidates相应参数,并让这些参数参与到输出计算之中;对于block level output, 我们允许它们接受来自前继几轮output data并根据path probabilities进行加权求和。
搜索算法
整个search process被分为两个阶段。在第一个阶段,只有operation weights parameters会被优化;第二阶段,则交替优化operation weights parameters 和 structure parameters。当完成后,最终model architecture会基于structure parameters导出出来,即从当前epoch时点开始按照最大概率路径更新weights values until the end of the epoch.
此外,在实际应用上,对于特定场景数据或特定的性能要求,我们也能够利用这个method去适配更精细化程度上的需求,比如说检测或者segmentation任务对scale sensitivity比较敏感的情况下,更好的结果也能达到。