谈到人工智能和机器学习,就必须具有必定的数学根底常识,才干让咱们更深化的了解其实质。而这些数学根底常识中最重要的包括两块内容:线性代数和概率论。
线性代数
线性代数的中心含义:万事万物都可以被笼统成某些特征的组合,并在由预置规则界说的结构之下以静态和动态的办法加以调查。
在线性代数中,由独自的数a构成的元素被称为标量,一个标量a可以是整数、实数或复数。
多个标量a1、a2、a3…..an按必定次序组成一个序列,这样的元素就被称为向量。向量可以看作标量的扩展,原来的一个数被一组数代替,然后带来了维度的添加。
假如将向量的一切标量都替换成相同规格的向量,得到便是矩阵:
相关于向量,矩阵同样代表了维度的添加,矩阵中的每个元素需要使用两个索引确认。同理,假如将矩阵中的每个标量元素在替换为向量的话,得到的便是张量。张量便是高阶矩阵,属于三维的概念。
在核算机存储中,标量占有的是零维数组,例如二进制字符;向量占有的是一维数组,例如语音信号;矩阵占有的是二维数组,例如灰度图画;张量占有的是三维数组,例如RGB图画和视频。
描绘数学目标的向量需要有特定的数学言语,范数和内积便是代表。
范数是对单个向量大小的衡量,描绘的是向量自身的性质,其作用是将向量映射为一个非负的数值。通用的L(p)范数界说如下:
L(1)范数核算的是向量一切元素绝对值的和,L(2)范数核算的是一般含义上的向量长度,L(+)范数核算的则是向量中最大元素的取值。
范数核算的是单个向量的标准,内积核算的则是两个向量之间的联络。 两个相同维度向量的内积表达式为:
内积可以表明两个向量之间的相对方位,即向量之间的夹角。一种特别的状况是内积为 0,即 ⟨x,y⟩=0。在二维空间上,这意味着两个向量的夹角为 90 度,即彼此笔直。而在高维空间上,这种联络被称为正交(orthogonality)。假如两个向量正交,阐明他们线性无关,彼此独立,互不影响。
在线性空间中,任意一个向量代表的都是 n 维空间中的一个点;反过来, 空间中的任意点也都可以唯一地用一个向量表明。
线性空间的一个重要特征是可以承载改变。当作为参考系的标准正交基确认后,空间中的点就可以用向量表明。当这个点从一个方位移动到另一个方位时,描绘它的向量也会产生改动。点的改变对应着向量的线性变换(linear transformation),而描绘目标改变抑或向量变换的数学言语,正是矩阵。
在线性空间中,改变的完成有两种办法:一是点自身的改变,二是参考系的改变。因此,关于矩阵和向量的相乘,就存在不同的解读办法:Ax=y
这个表达式既可以了解为向量 x 经过矩阵 A 所描绘的变换,变成了向量 y;也可以了解为一个目标在坐标系 A 的衡量下得到的成果为向量 x,在标准坐标系 I(单位矩阵:主对角线元素为 1,其他元素为 0)的衡量下得到的成果为向量 y。
描绘矩阵的⼀对重要参数是特征值(eigenvalue和特征向量(eigenvector)。关于给定的矩阵 A,假定其特征值为,特征向量为 x,则它们之间的联络如下: Ax=x
矩阵代表了向量的变换,其作用一般是对原始向量同时施加方向改变和标准改变。可关于有些特别的向量,矩阵的作用只要标准改变而没有方向改变,也便是只要伸缩的作用而没有旋转的作用。关于给定的矩阵来说,这类特别的向量便是矩阵的特征向量,特征向量的标准改变系数便是特征值。
矩阵特征值和特征向量的动态含义在于表明了改变的速度和方向。
概率论
同线性代数一样,概率论也代表了一种看待世界的办法,其关注的焦点是无处不在的或许性。对随机事情产生的或许性进行标准的数学描绘便是概率论的公理化过程。概率的公理化结构体现出的是对概率实质的一种知道。
从事情产生的频率知道概率的办法被称为频率学派(frequentist probability),频率学派口中的“概率”,其实是一个可独立重复的随机实验中单个成果呈现频率的极限。因为安稳的频率是核算规律性的体现,因而通过很多的独立重复实验核算频率,并用它来表征事情产生的或许性是一种合理的思路。
在概率的定量核算上,频率学派依靠的根底是古典概率模型。在古典概率模型中,实验的成果只包括有限个根本事情,且每个根本事情产生的或许性相同。如此一来,假定一切根本事情的数目为 n,待调查的随机事情 A 中包括的根本事情数目为 k,则古典概率模型下事情概率的核算公式为
条件概率(conditional probability)是依据已有信息对样本空间进行调整后得到的新的概率散布。假定有两个随机事情 A 和 B,条件概率便是指事情 A 在事情 B 已经产生的条件下产生的概率,用以下公式表明
上式中的 P(AB) 称为联合概率(joint probability),表明的是 A 和 B 两个事情一起产生的概率。假如联合概率等于两个事情各自概率的乘积,即 P(AB)=P(A)⋅P(B),阐明这两个事情的产生互不影响,即两者彼此独立。关于彼此独立的事情,条件概率便是自身的概率,即 P(A∣B)=P(A)。
贝叶斯定理(Bayes’ theorem):
式中的 P(H) 被称为先验概率(prior probability),即预先设定的假定建立的概率;P(D∣H) 被称为似然概率(likelihood function),是在假定建立的前提下观测到成果的概率;P(H∣D) 被称为后验概率(posterior probability),即在观测到成果的前提下假定建立的概率。
频率学派以为假定是客观存在且不会改动的,即存在固定的先验散布,只是作为调查者的咱们无从知晓。
贝叶斯学派则以为固定的先验散布是不存在的,参数自身也是随机数。换言之,假定自身取决于调查成果,是不确认而且可以修正的。数据的作用便是对假定做出不断的修正,使调查者对概率的主观知道愈加接近客观实际。
概率的估量有两种办法:最大似然估量法(maximum likelihood estimation)和最大后验概率法(maximum a posteriori estimation),两者分别体现出频率学派和贝叶斯学派对概率的了解办法。
最大似然估量法的思维是使操练数据呈现的概率最大化,依此确认概率散布中的不知道参数,估量出的概率散布也就最契合操练数据的散布。最大后验概率法的思维则是依据操练数据和已知的其他条件,使不知道参数呈现的或许性最大化,并选取最或许的不知道参数取值作为估量值。
概率论的一个重要应用是描绘随机变量(random variable)。依据取值空间的不同,随机变量可以分红两类:离散型随机变量(discrete random variable)和接连型随机变量(continuous random variable)。
离散变量的每个或许的取值都具有大于 0 的概率,取值和概率之间一一对应的联络便是离散型随机变量的散布律,也叫概率质量函数(probability mass function)。概率质量函数在接连型随机变量上的对应便是概率密度函数(probability density function)。
总结
不管机器学习还是人工智能,这些高大上的名词总算可以跟自己学了多年的数学产生联络,实属幸亏。虽然我不是数学专业,但是关于数学我始终还是自信的,大学时分的《线性代数》,研究生时分的《概率论》,这些根底的常识我依然还是有印象,但是深化了解仍需要加强操练并稳固。