0前语

在曩昔的几年里,深度神经网络在许多具有挑战性的运用中取得了巨大的成功,从AlexNet到VGGNet、GoogLeNet以及ResNet,网络模型变得越来越强大。虽然这些模型已经足够灵敏,但人工神经网络规划不只需求很多的专业知识,也需求充足的时间进行验证,调参关于深度模型来说更是项十分艰苦的事情,众多的超参数和网络结构参数会发生爆炸性的组合,常规的随机搜素和网格结构查找功率十分低。与此一同,因为布置硬件的功能差异,其对模型指标的共同性要求更高。因而,最近几年,神经网络的结构查找和模型优化成为了一个研究热门。

【AutoML】NAS系列之网络结构搜索

图 1. Neural Architecture Search 范畴前期的作业

Google Brian的NEURAL ARCHITECTURE SEARCH WITH REINFORCEMENT LEARNING[1]提出了构建网络结构查找(Neural Architecture Search, NAS)的根本结构,经过强化学习把架构的生成当作一个智能体(Agent)在挑选动作(action)的进程,经过在测验集上测验网络功能来获取奖赏值(reward),核算战略梯度(Policy Gradient)来更新RNN操控器,然后辅导架构的生成。 为了将NAS迁移到更大数据集乃至ImageNet上,NASNet[2]提出了一种方案:在CIFAR-10上学习一个网络单元(Cell),然后经过堆叠更多的这些网络单元的办法将网络迁移到更杂乱、尺寸更大的数据集上面。关于相同的查找空间,AmoebaNet[3]则采用EA-based查找战略,在进化算法中运用了年龄进化的战略,并在进化时倾向于挑选更年轻的模型,在算法战略角度上尝试了进化的办法。

NASNet和MetaQNN[4]都是针对特定数据集依据层(layer)的查找算法。网络一般是由数百个卷积层组成,每个卷积层在类型和超参数上都有众多的挑选,这大大增加了网络架构的查找空间和核算成本。针对以上问题,诞生了依据块(block)的规划办法BlockQNN[5]。块查找空间的思维连续到了PNAS[6]、ENAS[7]以及DARTS[8]等主流作业中。在Network Morphism[9]作业中,依据网络态射结构的办法能够在原有的网络结构基础上做修改,所以能够在很大程度上保留原网络的优点,而且其特别的改换办法能够确保新的网络结构还原成原网络,也便是说,它的表现至少不会差于原网络。依据网络态射理论,答应自网络不必从头开始练习模型,而是经过承继父模型的权重来进行初始化,运用权值承继办法进行NAS能够使核算量降低至数个GPU days,该系列的思维推动了NAS在落地实践中运用。

【AutoML】NAS系列之网络结构搜索

图 2. 依据强化学习的网络结构查找

如图2依据强化学习的网络结构查找,对比NasNet以及MnasNet[10]中「RNN操控器+战略梯度更新」的范式在移动端也同样能够查找到时延优异的网络结构。此流程涉及到如下几个循环步骤:

-运用操控器生成相应的网络结构 -练习该网络结构 -评估该网络结构 -更新相应的操控器以便于生成更优的网络结构

那么在该流程下,该怎么运用强化学习理论优化生成更好的网络结构呢?首先,咱们来看一下关于强化学习的根本理论。

1强化学习的简介

与咱们熟知的监督学习不同,强化学习不存在有标签的数据集。以围棋为例,每一步的决议计划没有肯定的正确错误的类别区别。一同,每一步的决议计划构成一个序列决议计划进程,它企图在棋局中间节点以及终究成果中取得一个最大的累积奖赏。与监督学习比较,强化学习的每一步与时间顺序先后关系严密,而监督学习的练习数据之间是独立的,没有先后的差别。

监督学习 强化学习
输入 独立同散布 改变的
输出 标注的标签(提早获悉) 试错的奖赏(延后得出)
经历
丢失

从下图中咱们能够看到,智能体(Agent)和环境(Environment)始终处于交互的进程,而战略(policy)是指在每个时间智能体依据观察到的状况(state)做出的决议计划,强化学习的意图便是学习一个战略函数(a∣s)\pi(a|s) (policy function),然后取得最大奖赏。战略函数的输入是状况(state)和动作(action),输出是一个0到1之间的概率值。

【AutoML】NAS系列之网络结构搜索
图 3. 强化学习的序列化进程

以超级玛丽为例,状况是游戏屏幕画面,把它作为战略函数的输入,战略函数能够告诉我每个动作(向左、上、右)的概率值。

假定一回合(episode)一共有nn步,当完结这一回合之后,咱们能够观测到一切nn个奖赏: r1,r2,⋯ ,rnr_1, r_2, \cdots, r_n。这些奖赏不是随机变量,而是实践观测到的数值。此刻,咱们能够核算出实践报答utu_t

报答有什么用呢?报答是该回合取得的奖赏总和,因而智能体的方针便是让报答尽量大,越大越好。强化学习要寻找一个战略,使得该报答的希望最大化。这个战略称为最优战略(optimum policy)。值得注意的是,强化学习的方针是最大化报答,而不是最大化当时的奖赏。以围棋为例,你的方针是赢得一局竞赛(报答),而非吃掉对方当时的一个棋子(奖赏)。

在大多数情况下,tt时间的报答是一个随机变量UtU_t。在咱们玩游戏的时分,在tt时间,咱们总是想知道随机变量UtU_t的值,来知道自己会赢仍是会输。可是,随机性使得咱们不能知道UtU_t的值。那么,咱们该怎样消除掉随机性呢?答案便是对UtU_t求希望,得到一个详细的数值。

假定咱们已经观测到状况sts_t,且做完决议计划,挑选了动作ata_t,那么,UtU_t中的随机性就来自于t+1t+1时间后的状况与动作:St+1,At+1,St+2,At+2,⋯ ,Sn,AnS_{t+1}, A_{t+1}, S_{t+2}, A_{t+2}, \cdots, S_{n}, A_{n}。此刻,咱们对UtU_t关于变量St+1,At+1,St+2,At+2,⋯ ,Sn,AnS_{t+1}, A_{t+1}, S_{t+2}, A_{t+2}, \cdots, S_{n}, A_{n}求条件希望,能够得到条件希望的成果,也便是动作价值函数 (Action-Value Function) Q(st,at)Q_\pi(s_t, a_t)

Q(st,at)=ESt+1,At+1,⋯ ,Sn,An[Ut∣St=st,At=at]Q_{\pi}(s_t, a_t) = E_{{S_{t+1}, A_{t+1}, \cdots, S_{n},A_{n}}}[U_t|S_t=s_t, A_t=a_t]

能够发现,动作价值函数Q(st,at)Q_{\pi}(s_t, a_t)不只和当时的状况sts_t和动作ata_t相关,一同也与影响之后动作的战略函数\pi密切相关。

再进一步,假如把动作AtA_t作为随机变量,在Q(st,at)Q_{\pi}(s_t, a_t)的基础上,关于AtA_t求希望,能够得到状况价值函数 (State-Value Function) VV_{\pi}

【AutoML】NAS系列之网络结构搜索

咱们能够发现,VV_\pi只依靠于战略\pi与当时状况sts_t,不依靠于动作。

状况价值函数V(st)V_{\pi}(s_t)也是报答UtU_t的希望:

V(st)=EAt,St+1,At+1,⋯ ,Sn,An[Ut∣St=st]\begin{aligned} V_{\pi}(s_t) &= E_{{A_t, S_{t+1}, A_{t+1},\cdots,S_{n},A_{n}}}[U_t|S_t=s_t] \end{aligned}

状况价值V(st)V_{\pi}(s_t)越大,就意味着报答的希望UtU_t越大。用状况价值能够衡量战略\pi与状况sts_t的好坏。

2依据强化学习的网络结构查找

在网络结构查找的使命中,实践的优化方针是让经过RNN操控器生成的网络结构在验证集上有更好的表现(验证集准确率)。

这个进程不同于传统的监督学习,而是运用丢失函数CC核算小批量的梯度并不断更新权重,然后运用梯度下降算法学习丢失函数最小的WW。可是,现在的优化变量是操控器RNN的参数\theta,验证集准确率RR并不是参数\theta的可微函数。

【AutoML】NAS系列之网络结构搜索
图 4. 经过近似战略梯度优化 RNN 参数

此刻要想个办法优化RNN操控器的参数\theta。强化学习能够将不行微的方针作为环境给的奖赏,可是需求搜集很多的奖赏才能让强化学习收敛。战略学习(policy-based reinforement learning)能够经过求解近似战略梯度完成奖赏最大化的意图。

假定咱们有了这样一个战略网络(a∣s,)\pi(a|s, \theta) Williams在1987年提出的REINFORCE[11-12]算法来练习战略网络。 其间,针对RNN生成网络结构这一步,要经过涉及到nn个超参数的RNN才能构成一个CNN,而在中间层的奖赏均为0,终究奖赏是CNN在验证集的准确率AccvalAcc_{val}。第tt步的报答Ut=Rt+Rt+1+⋯+Rn=rn=AccvalU_t = R_t + R_{t+1} +\cdots+ R_{n} = r_{n} = Acc_{val},依据公式咱们得知,其实AccvalAcc_{val}tt无关,均等于验证集的准确率。REINFORCE[11-12]算法的核心是用观测的报答UtU_t去近似动作价值函数Q(st,at)Q_{\pi}(s_t, a_t)

从上一节咱们得知,状况价值函数VV_{\pi}既依靠当时状况sts_t,也依靠战略网络(At∣St;)\pi({A_t| S_t; \theta})的参数\theta。咱们定义方针函数为

J()=ES[V(S)]{J(\theta) \dot= E_S[V_{\pi}(S)]}

这个方针函数排除了状况SS的束缚,只依靠战略网络求解\theta的最大化问题max⁡J()\underset{\theta}{\max}J(\theta)。咱们运用梯度上升对\theta进行更新

new←now+∇J(now)\theta_{new} \leftarrow \theta_{now} + \beta\nabla_\theta J(\theta_{now})

能够得到新的参数new\theta_{new}。其间,\beta作为学习率需求手动调整。终究战略梯度表示为

∇J(now)=∂J()∂∣=now\nabla_\theta J(\theta_{now}) \dot= \frac{\partial J(\theta)}{\partial \theta} | {}_{\theta=\theta_{now}}

战略梯度打开为

∂J()∂=ES[EA∼(⋅∣S;)[∂ln⁡(A∣S;)∂⋅Q(S,A)]]\frac{\partial J(\theta)}{\partial \theta}= E_{S}[E_{A\sim \pi({\cdot| S; \theta})}[\frac{\partial \ln \pi(A | S;\theta) } {\partial \theta} \cdot Q_{\pi}(S , A)]]

2.1蒙特卡洛近似希望

蒙特卡洛(Monte Carlo)是一大类随机算法(randomized algorithms)的总称,它经过随机样本来估算实在值。

蒙特卡洛近似希望:设XX是随机变量,xx是观测值,蒙特卡洛用f(x)f(x)近似希望E[f(X)]E[f(X)]。强化学习中的战略梯度、Q学习、SARSA等算法都需求这样用蒙特卡洛近似希望。

REINFORCE对Q(s,a)Q_\pi (s,a)做蒙特卡洛近似,运用从采样出的轨道样本得到估量的累积报答uu来替换QQ_\pi,然后更新战略网络的参数\theta。REINFORCE算法能够有用,是因为采样的随机梯度(stochastic gradient)的希望值是实在梯度的无偏估量。

咱们从环境中观测一个状况ss作为随机变量SS的观测值,依据当时的战略网络随机抽样得出动作a∼(⋅∣s;)a\sim \pi(\cdot|s;\theta)。依据ssaa,咱们能够核算出随机梯度:

g(s,a;)≐Q(s,a)⋅∇ln⁡(a∣s;)g(s, a;\theta)\doteq Q_\pi(s,a)\cdot\nabla_\theta\ln\pi(a|s;\theta)

关于tt时间的报答UtU_t,咱们运用蒙特卡洛近似UtU_t的条件希望,也便是动作价值函数

Q(st,at)=E[Ut∣St=st,At=at]Q_\pi(s_t,a_t) = E[U_t|S_t=s_t, A_t=a_t]

因为utu_t是随机变量UtU_t的观测值,所以utu_t是上面公式中希望的蒙特卡洛近似。在实践中,能够用utu_t替代Q(st,at)Q_\pi(s_t, a_t),则随机梯度g(st,at;)g(s_t,a_t;\theta)能够近似成

g(st,at;)=ut⋅∇ln⁡(at∣st;)\hat{g}(s_t,a_t;\theta)=u_t\cdot\nabla_\theta\ln\pi(a_t|s_t;\theta)

随机梯度g\hat{g}gg的无偏估量。咱们能够实践核算出g\hat{g}的值,进而做随机梯度上升来更新战略网络参数\theta

依据上面的推导,咱们能够将整个算法的练习流程收拾如下:

1.随机初始化战略网络参数now\theta_{now}

2.运用当时战略参数\theta操控智能体发生一条轨道:s1,a1,r1,s2,a2,r2,⋯ ,sn,an,rns_1,a_1,r_1, s_2,a_2,r_2,\cdots, s_n,a_n,r_n

3.关于每个时间t=1,2,⋯ ,nt=1,2,\cdots,n(在网络结构查找中即为生成网络结构的超参数序列):

-核算累积报答utu_t

-核算反向传播∇ln⁡(at∣st;now),∀t=1,⋯ ,n\nabla_\theta \ln \pi_\theta(a_t \vert s_t ;\theta_{now}),\quad\forall t=1,\cdots,n

-更新战略网络参数new←now+∑t=1nut⋅∇ln⁡(at∣st;now))\theta_{new} \leftarrow \theta_{now} + \beta \sum\limits_{t=1}^{n}u_t \cdot \nabla_\theta \ln \pi_\theta(a_t \vert s_t ;\theta_{now}))

经过以上进程,咱们就能够从操控器采样序列中核算而且运用它来去更新咱们的战略梯度。

2.2带基线的REINFORCE算法

依据上述战略梯度公式得出的REINFORCE办法虽然是一个梯度的无偏估量,可是有一个十分高的方差,所以效果并不好。为了减少方差,大幅提升表现,咱们将引入基线函数:将不依靠于动作AA的任意函数bb作为动作价值函数Q(st,at)Q_{\pi}(s_t, a_t)的基线(baseline),用Q(st,at)−bQ_{\pi}(s_t, a_t)-b替换掉Q(st,at)Q_{\pi}(s_t, a_t)。下面是带基线的战略梯度定理

∇J()=ES[EA∼(cdot∣S;)[(Q(S,A)−b)⋅∇ln⁡(A∣S;)]]\nabla_\theta J(\theta) = E_S[E_{A\sim\pi(cdot|S;\theta)}[(Q_\pi(S,A)-b)\cdot\nabla_\theta\ln\pi(A|S;\theta)]]

以文章[1]来为例阐明。优化的方针函数是

J(c)=EP(a1:T;c)[R]J(\theta_c)=E_{P(a_1:T;\theta_c)}[R]

其间c\theta_c是操控器RNN的参数,a1:Ta_1:T是操控器猜测的列表tokens。在收敛时,该子网络将在held-out数据集上完成精确度RR,咱们将其作为奖赏。但因为RR不行微,咱们需求运用战略梯度办法迭代更新c\theta_c。这儿咱们运用REINFORCE规则:

∇cJ(c)=∑t=1TEP(a1:T;c)[∇clog⁡P(at∣at−1:1;c)R]≐1m∑k=1m∑t=1T∇clog⁡P(at∣at−1:1;c)Rk\begin{aligned} \nabla_{\theta_c}J(\theta_c)&=\sum^T_{t=1}E_{P(a_1:T;\theta_c)}[\nabla_{\theta_c}\log P(a_t|a_{t-1}:1;\theta_c)R]\\ &\doteq \frac{1}{m}\sum^m_{k=1}\sum^T_{t=1}\nabla_{\theta_c}\log P(a_t|a_{t-1}:1;\theta_c)R_k \end{aligned}

其间,mm是操控器在一批中采样的不同结构的数量,TT是操控器规划神经网络结构时有必要猜测的超参数的数量。第kk个神经网络在练习数据集上练习后所到达的验证精度为RkR_k

在这儿,咱们运用先前结构精度的指数移动平均值作为基线,就得到:

∇cJ(c)=1m∑k=1m∑t=1T∇clog⁡P(at∣at−1:1;c)(Rk−b)\nabla_{\theta_c}J(\theta_c) = \frac{1}{m}\sum^m_{k=1}\sum^T_{t=1}\nabla_{\theta_c}\log P(a_t|a_{t-1}:1;\theta_c)(R_k-b)

这儿咱们要阐明,基线的取值不影响战略梯度的正确性。不论是让b=0b=0仍是让bb等于一个与动作无关的值,对希望的成果毫无影响,希望的成果都会等于终究的战略梯度,这儿有详细的证明[13],不再赘述。

基线是怎么在网络结构查找中起到加快收敛的效果呢?这儿有一个直观解说。

在战略梯度公式中,咱们能够看到有一项是Q(S,A)⋅∇ln⁡(A∣S;)Q_\pi(S,A)\cdot\nabla_\theta \ln\pi(A|S;\theta)。以上图为例,给定状况sts_t,动作空间是A={ks=3,ks=5,ks=7}A=\{ks=3, ks=5, ks=7\},动作价值函数给每个动作打分:

Q(st,ks=3)=20Q(st,ks=5)=80Q(st,ks=7)=60\begin{aligned} Q_\pi (s_t, ks=3) = 20\\ Q_\pi (s_t, ks=5) = 80\\ Q_\pi (s_t, ks=7) = 60 \end{aligned}

这些分值会乘到随机梯度∇ln⁡(A∣S;)\nabla_\theta\ln\pi(A|S;\theta)上。在做完梯度上升之后,新的战略会倾向于分值高的动作。依据上述剖析,咱们重视的是动作价值Q(st,ks=3)Q_{\pi}(s_t , ks=3)Q(st,ks=5)Q_{\pi}(s_t , ks=5)Q(st,ks=7)Q_{\pi}(s_t , ks=7)三者的相对巨细,而非肯定巨细。假如给三者都减去b=40b=40,那么三者的相对巨细是不变的,挑选卷积核为5仍然是最好的,卷积核为7仍然是最差的。因而

[Q(st,at)−b]⋅∇ln⁡(A∣S;)[Q_\pi(s_t, a_t)-b]\cdot\nabla_\theta\ln\pi(A|S;\theta)

依然能辅导\theta做调整,使得(ks=5∣st;){\pi}(ks=5|s_t;\theta)变大,而(ks=7∣st;){\pi}(ks=7|s_t;\theta)变小。

【AutoML】NAS系列之网络结构搜索
图 5. REINFORCE with baseline

3依据硬件感知的One-Shot-NAS算法规划

依据强化学习的网络结构查找,经过不断地「试错」的办法进行学习,经过迭代的办法更新操控器然后生成适宜的架构。美中不足的是,在此类个体启发式的查找战略中核算开支总是难以承受的,经过从头开始练习来评估每个架构,这供给了实在的功能,但十分耗时。现在咱们在weight-sharing NAS方向进行了试验,而且解耦了整个One-shot WS-NAS算法流水线,并将现今的首要流行的作业进行概括,在事务结构上完结查找空间的规划以及评估的全流程,而且结合OpenMMLab的算法结构以及Parrots.convert模型等级的测速接口,完成查找进程中多方针优化,可在flops、latency、activations等模型指标下进行帕累托最优查找。其间详细组件分为查找空间、超网练习战略、查找算法、超参数优化等。

值得注意的包括:

  1. 查找空间的统一性:大多数NAS算法都将规划详细的查找空间,可是算法的优势是否由查找空间限制咱们不得而知。因而,咱们将查找空间独立为统一格局的装备文件,在超网练习进程中,即时加载并替换原有的网络结构。
  2. 超网练习战略的统一性: NAS算法中超网的练习至关重要。在超网练习进程中,统一超参数能够让咱们更好地监控办理超网练习。
  3. 查找算法横向比较:在查找空间限定的情况下,Random Search的查找办法可为基线,判断详细算法的效用提升,一同关于不同的子网进行评估也可支撑在线测速,与查表以及代理指标的估量比较,更加准确安稳。

【AutoML】NAS系列之网络结构搜索
图 6.One-Shot-NAS 算法流水线

依据上述算法流水线,研究员可规划更加有用的查找空间,而且能够测验防止查找空间影响的查找算法,一同将繁琐的超参数调整协同。现在,商汤内部算法库为不同NAS算法的比较供给了一个相对公平的基准。

以超网络练习战略规划以及测速接口举例,以下将阐明超网练习的算法是怎么嵌入到算法结构来确保事务结构不受太杂乱的侵入性:

*超网练习:将本来的optimizer_config替换为Controller

optimizer_config = dict( type='BigNasControllerHook', subnets_sampler=dict( type='StateslessSubnetsSampler', strategy='sandwish4'), grad_clip=None, iter_controller=dict( loss_name='loss',))

因为mmcv中的Runner对整个练习进程的操控固定了一些形式,献身了一些灵敏性,这儿的ControllerHook实践对应着里边的OptimizerHook,并在本来的基础上增加了两个部分:subnets_sampler用于操控在每次迭代中怎么采样子网络,iter_contoller用于操控怎么运用子网络,并将subnets_sampler中采样的mode以model_tag字段传递到用户用于进行特定的操控。

*查找算法以及评估:

# GeneticFinder
search_find_cfg = dict(
type='GeneticFinder',
genetic_config=dict(
topk=10,
population_size=50,
total_epochs=50,
rand_epochs=25,
gen_trial_limit=100),
searcher_config=dict(mutate_prob=0.1),
accuracy_config=dict(descend=True),
# latency
resource_config=dict(
ref_resource_range=[0.7, 1.02],
resource_type='latency',
input_dims=4,
input_channel=1,
evaluator=dict(
type='NaiveEvaluator',
latency_eval_cfg={
'transform': {
'type': 'SketchParrots2Caffe',
'input_shape': (1, 3, 224, 224),
'filename': 'test',
'backend': 'ppl-caffe',
'repeat_num': 10,
'update': True,
'other_args': '',
},
'platform': {
'type': 'SKETCH_ANDROID_ARMV7',
'ip': '10.158.136.15',
'port': '2222',
'username': 'root',
'password': 'admin'
}
})),
save_dir=save_find_result_dir,
reward_attr='accuracy_top-1',
seed=0)

查找算法横向比较也可进行装备。在以下装备文件中,GeneticFinder是遗传算法,经过装备文件的参数,可操控其遗传、变异等逻辑的操控。其间,当resource_type为latency时,将采用速度评测对模型进行挑选,在查找模型阶段可实时的获取到当时模型在方针平台的latency。现在支撑获取模型等级的latency。

## 4结语

本文是网络结构查找系列文章中的第一篇。网络结构查找是AutoML范畴一个炽热的方向,有意义的作业层出不穷,笔者所在的团队积极研究相关的落地算法并进行完成,研究方向不只限于分类检测,还有关于网络结构查找以及硬件适配等相关的课题。欢迎持续重视AI结构技能共享模型AutoML专题系列。

在本系列文章中,将谈论网络结构查找范畴现在存在的几个问题以及现阶段的解决方案。以下话题假如有感兴趣的小伙伴到谈论区催更,很快就会有下一篇。

*在查找空间指数级增长的情况下,怎么更加高效快速的进行网络结构查找和评估;

*针对查找空间的规划理论以及在模型放缩情况下对推理时延的影响进行剖析;

*怎么结合实践事务建立协同统一性的网络结构查找结构;

*在排除各类涨点技巧后,怎么合理地衡量各种查找战略算法在不同查找空间下的实在效果;

*无监督网络结构查找的趋势以及上手网络结构查找范畴的注意事项;

*从Autogluon、PyGlove、Retiarii考虑自动机器学习结构在查找空间上的规划思维;

  • ……

PS:欢迎咱们重视AI结构技能共享专栏内容,假如有感兴趣的技能内容和难点欢迎随时指出,能够多多谈论留言。咱们也希望能经过本次技能共享让咱们了解到更多的AI结构前沿技能,也期待和咱们一同评论,更欢迎咱们加入咱们,一同为AI结构及AI开展贡献力量!简历直投邮箱:parrotshr@sensetime.com

引证

  • [1] Enzo, Leiva-Aravena, Eduardo, et al. Neural Architecture Search with Reinforcement Learning[J]. Science of the Total Environment, 2019.
  • [2] Zoph B , Vasudevan V , Shlens J , et al. Learning Transferable Architectures for Scalable Image Recognition[J]. 2017.
  • [3] Real E , Aggarwal A , Huang Y , et al. Regularized Evolution for Image Classifier Architecture Search[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2018, 33.
  • [4] Mundt M ,Majumder S ,Murali S , et al. Meta-learning Convolutional Neural Architectures for Multi-target Concrete Defect Classification with the COncrete DEfect BRidge IMage Dataset[J]. IEEE, 2019.
  • [5] Zhong Z ,Yang Z ,Deng B , et al. BlockQNN: Efficient Block-wise Neural Network Architecture Generation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, PP(99):1-1.
  • [6] Liu C ,Zoph B ,Neumann M , et al. Progressive Neural Architecture Search[J].2017.
  • [7] Pham H ,Guan M Y ,Zoph B , et al. Efficient Neural Architecture Search via Parameter Sharing[J].2018.
  • [8] Liu H ,Simonyan K ,Yang Y . DARTS: Differentiable Architecture Search[J].2018.
  • [9] Wang C ,Rui Y ,Wei T . Network Morphism[J].2018.
  • [10] Tan M ,Chen B ,Pang R , et al. MnasNet: Platform-Aware Neural Architecture Search for Mobile[J].2018.
  • [11] R. J. Williams. Reinforcement-learning connectionist systems. College of Computer Science, Northeastern University, 1987.
  • [12] R. J. Williams. Simple statistical gradient-following algorithms for connectionist reinforcement learning. Machine learning, 8(3-4):229–256, 1992.
  • [13] Going Deeper Into Reinforcement Learning: Fundamentals of Policy Gradients

感谢阅读,欢迎在谈论区留言谈论哦~

P.S. 假如喜欢本篇文章,请多多 附和、喜欢、谈论、保藏,让更多的人看见咱们 :D

重视 公众号「SenseParrots」,获取人工智能结构前沿业界动态与技能考虑。