本文已参与「新人创作礼」活动,一起开启创作之路。

1. 回顾机器学习的基本思想

机器学习所要实现多任务往往是:给定一组训练数据DD,我们希望通过DD得到我们研究的输入空间的概率分布。或者换句话讲,我们想用一个概率分布来尽可能准测试工程师确地描述这组训练数据的分布。这回归模型拟合效果判断样,我们就可以对给定的一个测试数据,找出条件概率最大的值作为输出,完成机器学习的预测部分。

然而,在没有任何假设的情况下,直接学习概率分布是不现实的。直接学习概率分布的一种最简单最回归模型分析暴力的方法,就是把空间分成很多小的单元,然后统计样本落在每个单元的频率,作为线性回归方程计算器每个单元的概率分布(线性回归方程每个单元近似成一个均匀分布)。但是这种方线性回归方程法的确定很明显:数据不足线性回归分析spss、有噪音、存储能力受限等。单元分割得越细,得到的概率分布就越准确,但是这就需要越多的数据来训练,也需要越多的存储空间来存储。当考虑的空间是n维时,所需要的空间就是单元个数的n次方,这样会出现维度爆炸的情况。

因此,在大多数情况下,我们都会人为指定某种概率分布。例如,指定数据服从高斯分布或者伯努利分布等。这样,对概率分布函数的学校就简化为了对指定的函数测试仪参数的学习,这样一方面降低了学习的难度,另一方面也测试你的自卑程度减少了存储空间(只需要存储我们感兴趣的统计量,例如对于高斯分布只线性回归方程需要存储均值和方差;对于伯努利分布,只需要存储正类的概率)。这种方测试你适合学心理学吗法需要根据不同的问题选择不同的线性回归方程计算器分布,需要一定先验知识。

指数族分布就是一类常用的分布模型,它有很多优良的回归模型中引入虚拟变量的作用性质,利用指数族分布假设来推导出的线性模型成为广义线性模型,Generalized Linear Model(GLM)。下面我们介绍指数族分布测试用例的由来。

2. 指数族分布

2.1. 指数族分布由来的推导

我们这里讨论的是离散模型的指数族分布。
X(i)X^{(i)} 表示第 ii 条训练数据,T(X(i))T(X^{(i)})回归模型公式示从第 ii 条训练数据中我们感兴趣的统计量(或者也线性回归方程公式详解叫特征数,常用的比如k阶矩,例如T(X(i))=[x,x2,⋯ ]T(X^{(i)})=[x,x^2,cdots] 。注意这里T(线性回归模型X(i))T(X^{(i)})是一个向量,这样我们就可以表示两个或者更多我们感兴趣的统计量)。我们希望我们的概率模型 pp 能满足以下性质

Ep[T(X)]=(2-1)mathbb{E}_p[T(X)] = hat{mu}\ tag{2-1}

其中

=1n∑i=1mT(X(i))(2-2)hat{mu}测试工程师 = frac{1}{n}sum_{线性回归模型i=1}^mT(X^{(i)})\ tag{2-2}

简单来说,就是我们希望概率模型的统计量的期多元回归模型望等于所有训练数据的统计量的均值,这个希望是非常合理、自然的。

除此之外,我们还希望我们的概率模型要有最大的信息熵,也即满足最大熵原理,这是因为在没有更多的信息的情况下,我们希望我们的概率模型有最大的不确定性,也即能够涵盖回归模型怎么建立更多的可能性。

为此,我们可线性回归方程公式以将上述目标写成如下的最优化问题:

p∗(x)=argmaxp(x)−测试英文∑x回归模型分析p(x)log⁡p(x)s.t.∑xT(x)p(x)=∑xp回归模型有哪些(x)=1(2-3)begin{aligned} p^*(x) = &mathop{text{argmax}}limits_{p(x)}测试仪 -sum_x p(x)log p(x) \ {text{s.t.}}回归模型拟合效果判断 &sumlimits_x T(测试英文x)p(x) = hat{mu} \ &sumlimits_x p(x) = 1 \ tag{2-3} end{aligned}

这是一个仅含等式约束线性回归方程计算器的凸优化问题,可以用Lagrange对偶方法来求解。
L线性回归方程公式详解agrange函数为:

L(x,,)=−∑xp(x)log⁡p(x)+T(∑xT(测试手机是否被监控x)p(x)−)+(∑xp(x)−1)=∑x(−p(x)log⁡p(x)+TT(x)p(x)+p(x))−T−(2-4)begin{aligned} L(x,eta,lambda)& = -su测试手机是否被监控m_x p(x)log p(x) + e回归模型拟合效果判断ta^T(sum_x T(x)p(x) – hat{m测试抑郁症的20道题u}) + lambda(sum_x p(线性回归模型x) – 1) \ &= sum_x (-p(x)log p(x) + eta^TT(x)p(x) + lambda p(x)) – eta^Tha测试你的自卑程度t{mu} – lambda\ tag测试{2-4} end{aligned}

由于(2−3)(2-3)是一个仅含等式约束的凸优化问题的标准形式,所以强对偶性成立。对(2−4)(2-4)中的p(x)p(x)求导令导数等于0,有

−1−log⁡p(x)+TT(x)+=0(2-5)-1-log p(x) + eta^TT(x) + lambda =回归模型有哪些 0\ tag{2-5}

可进一步得到:

p(x)=exp⁡(TT(x)+−1)=exp⁡(TT(x)−a)(2-6)begin{aligned} p(x) &测试你适合学心理学吗amp;= exp(eta^TT(x) + l测试你适合学心理学吗ambda – 1) \ &= exp(eta^TT(x) – a)\ tag{2-6} end{aligned}

(2−6)(2-6)两边求和,可得:

∑xp(x)=1=∑回归模型有哪些xexp⁡(T测试抑郁症T(x)−a)(2-测试你的自卑程度7)s线性回归方程公式b推导过程um_x p(x) = 1 = sum_x exp(eta^TT(x) – a)\ tag{2-测试英文7}

由上式可以得到

a()=log⁡∑xexp⁡线性回归分析(TT(x))(2-8)a(eta) = logsum_x exp(eta^TT(x)回归模型怎么建立)\ tag{2-8}


′T=Teta’^T =eta^T 以及 T′(x)=T(x)log⁡b(x)T'(x) = T(x) log b(x),可以得到p(x)p(x)的一种更常见的表达式:

p(y;)=b(y)exp⁡(TT(y)−a())(2-9)p(y;eta) = b(y)exp(e测试手机是否被监控ta^TT(y) – a(eta))\ tag{2-9}

上式就是很多文献中常见的指数族分布线性回归方程计算器的概率密回归模型的作用度函数表达式回归模型分析

2.回归模型有哪些2. 指数族分布的特殊情形:伯努利分布和高斯分布

(2−9)(2-9)中;

  • eta被称为自然参数(natural parameter)或者典范参数(canonical parameter)
  • T(y)回归模型怎么建立T(y)被称测试抑郁症的20道题为充分统计量(sufficie线性回归方程公式详解nt statistic),常用的是T(y)=yT(y)=y
  • a()a(eta)被称为对数分割函数(log partition fun回归模型的显著性检验ction),可以起到归一化的作用

下面我们来说明一下,伯努利分布和回归模型高斯分布都是指数族分布的特殊情形。
假设伯努利分布的均值(也即取值为1的概率)为phi,那么伯努利分布的概率密度函数可以表示成:

p(y;)=y(1−)测试手机是否被监控1−y=exp(ylog+(1−y)log(1−))=exp((log1−+log(1−)))(2-10)begin{aligned} p(y;phi)&=phi^y(1-phi)^{1-y}\ &=exp(ylog{phi}+(1-y)log{(1-phi)})\ &=expleft(left(log{frac{phi}{1-phi}}+log{(1-phi线性回归模型)}right)right)\ tag{2-10} en线性回归方程公式详解d{aligned}

eta回归模型log1−log{frac{phi}{1-phi}}
与此同时,如果我们用eta来反解出phi线性回归模型有:

=11+e−(2-11)phi=frac{1}{1+e^{-eta}}\ tag{2-11}

这其实就是回归模型中引入虚拟变量的作用sigmoid函数的表达形式线性回归方程计算器 !后面我们会再深入些讨论logist线性回归模型ic回归和sigmoid函数。
此时,指数族分布中的参数测试你适合学心理学吗对应地可以写成如下:

=log1−T(y)=ya()=−log(1−)=log(1+e)b(y)=1(2-12)begin{aligned} eta&=log{frac{phi}{1-phi}}\ T(y)&=y\ a(eta)&=-log{(1-phi)}\ &=log{(1+e^{eta})}\ b(y)&=1\ tag{2-12} end{al回归模型的显著性检验ign测试手机是否被监控ed}

对于高斯分布,为了简化起见,我们这里考虑方差为1的情况。(这种简化是有意义的,尤其是在作为线性回归的铺垫测试工程师的时候。回归模型的作用因为在推导线性回归模型的时候,高斯分布的方差对后的优化目标无影响,因此可以选取任意的方差来进行推导说回归模型的作用明)。令均值为mu,高斯分布的概率密度函数为:

p(y线性回归方程公式b推导过程;,)=12exp(−122(y−)回归模型怎么建立2)=12exp(−122y2)exp(y2−1222)(2-13)begin{aligned} p(y;mu,delta)&=frac{1}{deltasqrt {2pi}}exp{left(-frac{1}{2delta^2}(y-mu)^2right)}\ &=frac{1}{deltasqrt {2pi}}exp{left(-frac{1}{2delta^2}y^2right)}exp{left(frac{mu y}{d回归模型拟合效果判断elta^2}-frac{1}{2del测试你的自卑程度ta^2}mu^2right)}\ tag{2-13} end{aligned}

对应的指数族分布的参数为:

=2T(y)测试抑郁程度的问卷=ya()=1222=222b(y)=12exp(−122y2)(2-14)begin{aligned} eta&=frac{mu}{delta^2}\ T(y)&=y\ a(eta)&=fra线性回归方程c{1}{2de回归模型分析lta^2}mu^2\ &=frac{delta^2}{2}线性回归方程例题详解eta^2\ b(y)&=frac{1}{delta线性回归方程公式sqrt {2pi}}e回归模型的作用xp{left(-frac{1}{2del线性回归ta^2}y^2right)}\ tag{2-14} end{aligned}

从上式我们可以得到:

y=E(y∣x;,)==2⋅(2-15)hat y=E(y|x;mu,delta)=mu=delta^2cdot测试手机是否被监控eta\ tag{2-15}

2.3. 关于参数eta如何求取的一点讨论

在2.1.节中,我们其实并没有求出eta的最优值。正常的思路,应该是通过求取Lagrange对偶函数的最大值点来求出eta,然而实际中这比较困难,因此一般用另一种方法来求——极大似然估计法。下面我们证明用极大似然估计的方法来求eta,满足(2−2)(2-2)
所谓极大似然估测试抑郁症计法,其实就是求如下最优化问题:测试抑郁症

argmaxL(p(D∣))=测试你适合学心理学吗argmaxp(D∣)=argma测试抑郁程度的问卷x∑i=1m(TT(X(i))−a())(2-16)begin{aligned} mathop{text{argmax}}limits_{eta} &L(p(D|eta)) \ &= ma回归模型公式thop{text{argmax}}limits_{eta} p(D|eta) \ &= mathop{text{回归模型拟合效果判断argmax}}limits_{eta} sum_{i=1}^m (eta^T T(X^{(i)}) – a(eta))\ tag{2-16} end{aligned}

不失一般性,我们这里仅给出eta为1维的线性回归方程公式b推导过程情况下的求解过程。上式对eta求导令导数为0(这里其实省略了上式中回归模型的作用的最优化目标函数是凹函数的证明,读者有兴测试趣可以自行证明):

∑i=1mT(X(i))−m∂a线性回归统计三要素()∂=0(2-17)s线性回归模型um_{i=1}^m T(X^{(i)})- mfrac{partial{a(eta线性回归方程)机器学习}}{partial{eta}}=0\ tag{2-17}

求得:

∂a()∂=1m∑i=1mT(X(i))=(回归模型分析2-18)frac{partial{a(测试英文eta)}}{partial{eta}}=frac{1}{m}sum_{i=1}^m T(线性回归模型X^{(i)})=hatmu\ ta测试工程师g{2-18}

也即,用极大似然估计的方法也满足(2−2)(2-2),因此可以放心用。

2.4. 用广义线性模型(GLM)来对问题进行建测试模的几个基本假设

下面我们来总结一下,利用GLM对问题建模的三个基本假设

  1. y∣x;∼ExponentialFamily()测试y|x;thetasim ExponentialF多元回归模型amily(eta测试你的自卑程度),即给定样测试用例本输入xx和参数theta,样本的输出分布服从指数族分布。参数theta的含义见3.
  2. 给定xx,我们的目标是预测x对应的输出yy的统计量T(y)T(y)的期望。在大多数情况下,统计量就是yy(的期望)。
  3. 指数族分布的参数etaxx的线性组合,这个是一个基本假设,线性假线性回归方程公式b推导过程设也是一种最简单直接的假回归模型分析设。也即y=wTx+by=w^Tx+b。如果令x0=1,=[w;b]x_0=1,theta=[w;b],则前式可以写成更紧凑的线性回归分析形式:=Txeta=th测试英文et线性回归方程公式b推导过程a^Tx