LASSO十分有用,但因为它的赏罚项不能够惯例地进行求导,使得很多人以为它无法显式地求出解析解。但其实并不是这样的。

1 单变量景象:软阈值法

1.1 软阈值的分类谈论

NN个样本的真矩阵计算器实值记为NN维向量yy,将NN个样本变量类型有哪些的自变量记为zz,假定咱们现已将自变量做过标准化,即z′ℓn=0z’ ell_n=0z′z/N=1z’z/N=1,这也意味着在LAS算法设计与剖析SO模型中截距项为00。系数beta是要优化的参数,赏罚项参数为>0lambdagt 0

LASSO便是要求解

arg min⁡12N(y−z)′(y−z)+∣∣(1)argmin_beta d算法的时刻复杂度取决于frac{1}{2N}(y-zb变量名的命名规矩eta)'(y-zbeta)+lambda |beta| tag{1}

忽略常数项后,上式等价于

arg min⁡122−y′zN+∣∣arg矩阵相乘怎样算min_beta dfrac{1}{2算法是什么}beta^2 -dfrac{y’z}{N}变量的定义beta+ lambda |beta|

矩阵乘法丢掉函数写变量成分段矩阵天王函数矩阵游戏办法变量类型有哪些

f()={f1()=122−(y′zN+),<0f2()=122−矩阵(y′zN−),≥0f(beta)=begin{cases} f_1(beta) = dfrac{1}{2}beta^2 -left(d矩阵的逆frac{y’z}{N} + lambdaright)beta , beta lt 0 f_2(beta) = dfrac{1}{2}beta^2 -left(dfrac{y’z矩阵类似}{N}- lambdari矩阵天王ght)beta, b变量名的命名规矩eta geq 0 end{cas算法流程图es}

分类谈论:

  • y′zN>dfrac{y’z}{N}gt lambda,则f1(算法的时刻复杂度取决于)>0f_1(beta) gt 0f2()f_2(beta)变量泵^=y′zN−hatbeta=dfrac{y矩阵‘z}{N}- lambda处取到最小值f2(^)<0f_2(hatbeta)lt 0,因而解为^=y′zN−hatbeta=dfrac{y’z}{N}- lambda
  • ∣y′zN∣≤left|dfrac{y’z}{N}right|leq lambda,则f1()≥0f_1(beta) geq 0f2()≥0f_2(beta) geq 0,且在^=0hatbeta变量名=0处有f1(^)=f2(^矩阵等价)=0f_1(hatbeta)=f_2(hatbeta)=0,因而解为^=0hatb变量英文eta=0
  • y′zN<−变量dfrac{y’z}{N}lt -lambda,则f2()>0f_2(beta) gt 0f1()f_1(beta)^=y′zN+hatbeta=算法的时刻复杂度取决于dfrac{y’z}{N}+lambda处取到最小值f1(^)<矩阵的逆0f_1(hatbeta)lt 0,因而解为^=y′zN+hatbeta=变量与函数dfrac{y’z}{N}+la变量的指针其意义是指该变量的mbda

运用软阈值算子(soft-thresholding operator)S(x)=sign(x)(∣x∣−)+S_lambda(x)=变量类型有哪些text{sign}(x)(|x|-lambda)_+,可将以上三种解一致为

^=S(y′z/N)hatbeta=S_lambda(y’z/N)

其实在咱们的设定下变量,OLS估计量为~=y′z/Ntildebeta=y’z/N,因而,将OLS估矩阵等价计量矩阵相乘怎样算经过一个软阈值算子的操作,就变成了LASSO估计量。

1.2 次梯变量是什么意思

假定引入次梯度(subgradient)的概念,能够更直接地求解(1)(1)式。设∣∣|beta|的次梯度为s∈sign()sin text{sign}(beta矩阵计算器),它的办法是,当≠0beta neq 0时有s=sign()s= text{sign}(beta),当=0beta = 0时有s∈[−1,1]sin [-1,1]。根据凸优化(convex optim算法流程图ization)理论,求解(1)(1)相当于求解

−1Nz′(y−z)+s=0-dfrac{1}{N}z'(y-zbeta) +lambda s =0

的解(^,^)(hatbeta,hatlambda)。化简后得到y′z/N=+矩阵s∈+sign()y’z/N = beta+lambda sinbeta+lambda text{sign}(beta),毕竟同变量类型有哪些样能够解算法导论^=S(y′z/N)hatbeta=S_lambda(y’z/N)。比如=0beta=0时,就意味着y′矩阵游戏z/N∈[−,]y’z/N in[-lambda,la矩阵mbda]

2 多变量景象:循变量类型有哪些环坐标下降法

咱们来看多变量的算法的五个特性完整版LASSO问题。将自变量排成NpNtimes p矩阵XX,咱们要求解的是

arg min⁡∈Rp12N∥y−X∥22+∥∥1argmin_{betain mathbb{R}^p} dfrac{1}{2N}leftVert y-XbetaVer变量名的命名规矩t_2^2+la算法是什么mbda rightVertbetaVert_1

在这儿,咱们运用循环坐标下降法(c变量的指针其意义是指该变量的ycli矩阵乘法c coordinate descent),它的思想是,按必定次序依次对pp个参数进行优化,比如按j=1,…,pj=1,ldots,p的次序,在第jj次优化时,坚持其他一切系数不变,改动j矩阵的逆beta_j使丢掉函数最小化。

根据以上思想,咱们将第jj次的最优化政策写为

arg min⁡j∈Rp12N∥y−∑k≠jx⋅kk−x⋅jj∥22+∑k≠变量英文j∣k∣+∣j∣argmin_{beta_jin mathbb{R}^p} dfrac{1}{2N}leftVert y-sum_{kneq j}x_{cdot k}beta_k-x_{cdot j}beta_jrightVert^2_2变量+lambda sum_{kneq j}|beta_k| +lambda |be算法流程图ta_j|

r(j)=y−∑k≠jx⋅k^kr^{(j)}=y-sum_{kneq j}x_{cdot k}hat{b变量的定义eta}_k算法剖析的目的是,这称为partial residual,那么根据第1.1节中的成果,咱们能够得出

^j=S(x⋅j′r(j)/N)hatbeta_j = S_lambda (矩阵类似x_{cdot j}’ r^{(算法流程图j)}/N)

r=r(j)−x⋅j^jr = r^{(j)}-x_{cdot j}hatbet变量英文a_j,上式相当于更新规矩

^j←S(^j+x⋅j′r/N)ha矩阵相乘怎样算tbeta_j leftarrow S_lambda (hatbeta_j +x_{cdot j}’ r/N)

因为政策函数是凸的,没有部分的极小值,因而,每次更新一个坐标,毕竟能够收敛到全局最优解。

Pathwise coordinate descent(算法的有穷性是指逐途径坐标下降):能够先取一个使^=0hatbeta=0的最变量的指针其意义是指该变量的小的l算法的有穷性是指ambda,然后,稍微减小lambda的值,并以上一次得到的^hatbeta作为“warm变量的指针其意义是指该变量的 start”,用坐标下降法迭代直到收敛,不断重复这个进程,毕竟就能够得到在lambda的一系列改动范围内的解。

那么,怎样才能使^=0hatbeta=0?运用次梯度,咱们能够知道,关于^j=0hatbe变量是什么意思ta_j=0,必有x⋅j′y/N∈[−,]x_{cdot j}’y /N i矩阵的秩n [-lambda变量泵,lambda],即要求≥∣x⋅j′y∣/Nlambda ge算法导论q |x_{cdot j}’y| /N,若要使矩阵乘法整个^=0hatbeta=0,则可取=max⁡j∣x⋅j′y∣/Nlambda =max矩阵天王_j |x_{cdot j}’y| /N,这便是使^变量与函数=0hatbeta=0的最小的lambda

3 其他解法

求解LAS算法的有穷性是指SO还有其他的解法,如homotopy method,它能够从00初步,得到序列型的解的途径,途径是分段线性的。

还有LARS(least angle regression)算法,这是homotopy me算法的时刻复杂度是指什么th算法的五个特性od之一,能够有用得到分段线性途径。

这儿不作翻开。

4 正交基

在上面的进程中,假定将自变量正交化,能够大大简化核算。如在第2节中,假定自变量之矩阵等价间是正交的,则x⋅j′r变量是什么意思(j)/N=x⋅j′y/Nx_{cdot j}’ r^{(j)}/N = x_{cdot矩阵 j}’ y/N,此时^jhatbeta_j便是将yyx⋅jx_{cdot j}做回归的OLS解,经过软阈值算子后的值。