LASSO的解法

LASSO十分有用，但因为它的赏罚项不能够惯例地进行求导，使得很多人以为它无法显式地求出解析解。但其实并不是这样的。

1 单变量景象：软阈值法

1.1 软阈值的分类谈论

将 $N$ 个样本的真矩阵计算器实值记为 $N$ 维向量 $y$ ，将 $N$ 个样本变量类型有哪些的自变量记为 $z$ ，假定咱们现已将自变量做过标准化，即 $ell_n=0$ ， $z^{'} z / N = 1$ ，这也意味着在LAS算法设计与剖析SO模型中截距项为 $0$ 。系数是要优化的参数，赏罚项参数为 $> 0$ 。

LASSO便是要求解

min⁡12N(y−z)′(y−z)+∣∣(1)argmin_beta d算法的时刻复杂度取决于frac{1}{2N}(y-zb变量名的命名规矩eta)'(y-zbeta)+lambda |beta| tag{1}

忽略常数项后，上式等价于

min⁡122−y′zN+∣∣arg矩阵相乘怎样算min_beta dfrac{1}{2算法是什么}beta^2 -dfrac{y’z}{N}变量的定义beta+ lambda |beta|

将矩阵乘法丢掉函数写变量成分段矩阵天王函数矩阵游戏办法变量类型有哪些：

f_1(beta) = dfrac{1}{2}beta^2 -left(d矩阵的逆frac{y’z}{N} + lambdaright)beta , beta lt 0 f_2(beta) = dfrac{1}{2}beta^2 -left(dfrac{y’z矩阵类似}{N}- lambdari矩阵天王ght)beta, b变量名的命名规矩eta geq 0 end{cas算法流程图es}

分类谈论：

若 $y′zN>dfrac{y’z}{N}gt lambda$ ，则 $f1(算法的时刻复杂度取决于)>0f_1(beta) gt 0$ ， $f2()f_2(beta)变量泵$ 在 $^=y′zN−hatbeta=dfrac{y矩阵‘z}{N}- lambda$ 处取到最小值 $f2(^)<0f_2(hatbeta)lt 0$ ，因而解为 $^=y′zN−hatbeta=dfrac{y’z}{N}- lambda$ ；
若 $∣y′zN∣≤left|dfrac{y’z}{N}right|leq lambda$ ，则 $f1()≥0f_1(beta) geq 0$ ， $f2()≥0f_2(beta) geq 0$ ，且在 $^=0hatbeta变量名=0$ 处有 $f1(^)=f2(^矩阵等价)=0f_1(hatbeta)=f_2(hatbeta)=0$ ，因而解为 $^=0hatb变量英文eta=0$ ；
若 $y′zN<−变量dfrac{y’z}{N}lt -lambda$ ，则 $f2()>0f_2(beta) gt 0$ ， $f1()f_1(beta)$ 在 $^=y′zN+hatbeta=算法的时刻复杂度取决于dfrac{y’z}{N}+lambda$ 处取到最小值 $f1(^)<矩阵的逆0f_1(hatbeta)lt 0$ ，因而解为 $^=y′zN+hatbeta=变量与函数dfrac{y’z}{N}+la变量的指针其意义是指该变量的mbda$ 。

运用软阈值算子（soft-thresholding operator） $S(x)=sign(x)(∣x∣−)+S_lambda(x)=变量类型有哪些text{sign}(x)(|x|-lambda)_+$ ，可将以上三种解一致为

^=S(y′z/N)hatbeta=S_lambda(y’z/N)

其实在咱们的设定下变量，OLS估计量为 $~ = y^{'} z / N$ ，因而，将OLS估矩阵等价计量矩阵相乘怎样算经过一个软阈值算子的操作，就变成了LASSO估计量。

1.2 次梯变量是什么意思度

假定引入次梯度（subgradient）的概念，能够更直接地求解 $(1)$ 式。设 $∣ ∣$ 的次梯度为 $s \in sign ()$ ，它的办法是，当 $\neq = 0$ 时有 $s = sign ()$ ，当 $= 0$ 时有 $s \in [- 1, 1]$ 。根据凸优化（convex optim算法流程图ization）理论，求解 $(1)$ 相当于求解

−1Nz′(y−z)+s=0-dfrac{1}{N}z'(y-zbeta) +lambda s =0

的解 $(^,^)(hatbeta,hatlambda)$ 。化简后得到 $y^{'} z / N = + s \in + sign ()$ ，毕竟同变量类型有哪些样能够解算法导论出 $^=S(y′z/N)hatbeta=S_lambda(y’z/N)$ 。比如 $= 0$ 时，就意味着 $y^{'} z / N \in [-,]$ 。

2 多变量景象：循变量类型有哪些环坐标下降法

咱们来看多变量的算法的五个特性完整版LASSO问题。将自变量排成 $N p$ 的矩阵 $X$ ，咱们要求解的是

min⁡∈Rp12N∥y−X∥22+∥∥1argmin_{betain mathbb{R}^p} dfrac{1}{2N}leftVert y-XbetaVer变量名的命名规矩t_2^2+la算法是什么mbda rightVertbetaVert_1

在这儿，咱们运用循环坐标下降法（c变量的指针其意义是指该变量的ycli矩阵乘法c coordinate descent），它的思想是，按必定次序依次对 $p$ 个参数进行优化，比如按 $j = 1, \dots, p$ 的次序，在第 $j$ 次优化时，坚持其他一切系数不变，改动 $j矩阵的逆beta_j$ 使丢掉函数最小化。

根据以上思想，咱们将第 $j$ 次的最优化政策写为

min⁡j∈Rp12N∥y−∑k≠jx⋅kk−x⋅jj∥22+∑k≠变量英文j∣k∣+∣j∣argmin_{beta_jin mathbb{R}^p} dfrac{1}{2N}leftVert y-sum_{kneq j}x_{cdot k}beta_k-x_{cdot j}beta_jrightVert^2_2变量+lambda sum_{kneq j}|beta_k| +lambda |be算法流程图ta_j|

记 $r(j)=y−∑k≠jx⋅k^kr^{(j)}=y-sum_{kneq j}x_{cdot k}hat{b变量的定义eta}_k算法剖析的目的是$ ，这称为partial residual，那么根据第1.1节中的成果，咱们能够得出

^j=S(x⋅j′r(j)/N)hatbeta_j = S_lambda (矩阵类似x_{cdot j}’ r^{(算法流程图j)}/N)

记 $r=r(j)−x⋅j^jr = r^{(j)}-x_{cdot j}hatbet变量英文a_j$ ，上式相当于更新规矩

^j←S(^j+x⋅j′r/N)ha矩阵相乘怎样算tbeta_j leftarrow S_lambda (hatbeta_j +x_{cdot j}’ r/N)

因为政策函数是凸的，没有部分的极小值，因而，每次更新一个坐标，毕竟能够收敛到全局最优解。

Pathwise coordinate descent（算法的有穷性是指逐途径坐标下降）：能够先取一个使 $^=0hatbeta=0$ 的最变量的指针其意义是指该变量的小的，然后，稍微减小的值，并以上一次得到的 $^hatbeta$ 作为“warm变量的指针其意义是指该变量的 start”，用坐标下降法迭代直到收敛，不断重复这个进程，毕竟就能够得到在的一系列改动范围内的解。

那么，怎样才能使 $^=0hatbeta=0$ ？运用次梯度，咱们能够知道，关于 $^j=0hatbe变量是什么意思ta_j=0$ ，必有 $x⋅j′y/N∈[−,]x_{cdot j}’y /N i矩阵的秩n [-lambda变量泵,lambda]$ ，即要求 $|x_{cdot j}’y| /N$ ，若要使矩阵乘法整个 $^=0hatbeta=0$ ，则可取 $=max矩阵天王_j |x_{cdot j}’y| /N$ ，这便是使 $^变量与函数=0hatbeta=0$ 的最小的。

3 其他解法

求解LAS算法的有穷性是指SO还有其他的解法，如homotopy method，它能够从 $0$ 初步，得到序列型的解的途径，途径是分段线性的。

还有LARS（least angle regression）算法，这是homotopy me算法的时刻复杂度是指什么th算法的五个特性od之一，能够有用得到分段线性途径。

这儿不作翻开。

4 正交基

在上面的进程中，假定将自变量正交化，能够大大简化核算。如在第2节中，假定自变量之矩阵等价间是正交的，则 $x⋅j′r变量是什么意思(j)/N=x⋅j′y/Nx_{cdot j}’ r^{(j)}/N = x_{cdot矩阵 j}’ y/N$ ，此时 $^jhatbeta_j$ 便是将 $y$ 对 $x⋅jx_{cdot j}$ 做回归的OLS解，经过软阈值算子后的值。

LASSO的解法

1 单变量景象：软阈值法

1.1 软阈值的分类谈论

1.2 次梯变量是什么意思度

2 多变量景象：循变量类型有哪些环坐标下降法

3 其他解法

4 正交基

评论

发表回复取消回复

更多文章

评估基准在人工智能研究中的重要性

Nop入门：动态SQL管理

Android gralde 脚本迁移到 Kotlin DSL

AST-GREP：基于语法和语义的代码搜索与替换，你需要了解一下！

LASSO的解法

1 单变量景象：软阈值法

1.1 软阈值的分类谈论

1.2 次梯变量是什么意思度

2 多变量景象：循变量类型有哪些环坐标下降法

3 其他解法

4 正交基

评论

发表回复 取消回复

更多文章

评估基准在人工智能研究中的重要性

Nop入门：动态SQL管理

Android gralde 脚本迁移到 Kotlin DSL

AST-GREP：基于语法和语义的代码搜索与替换，你需要了解一下！

发表回复取消回复