我正在参加「启航方案」

这篇文章是接着一文拿捏点互信息（PMI）处理词分布式表明稀少性问题写的。处理分布式表明稀少性问题另一个办法是使用奇特值分化（Singular Value Decomposition，SVD）。

我把比如搬过来了。仍是本来的三个句子及其共现矩阵M。

我喜爱天然言语处理。
我爱深度学习。
我喜爱机器学习。

我喜爱天然言语处理爱深度学习机器∘我0211111213喜爱2011100112天然1101100001言语1110100001处理1111000001爱1000001101深度1000010101学习2100011011机器1100000101。3211111210\begin{array}{ccccccccccc} \hline & \text { 我 } & \text { 喜爱 } & \text { 天然 } & \text { 言语 } & \text { 处理 } & \text { 爱 } & \text { 深度 } & \text { 学习 } & \text { 机器 } & \circ \\ \hline \text { 我 } & 0 & 2 & 1 & 1 & 1 & 1 & 1 & 2 & 1 & 3 \\ \text { 喜爱 } & 2 & 0 & 1 & 1 & 1 & 0 & 0 & 1 & 1 & 2 \\ \text { 天然 } & 1 & 1 & 0 & 1 & 1 & 0 & 0 & 0 & 0 & 1 \\ \text { 言语 } & 1 & 1 & 1 & 0 & 1 & 0 & 0 & 0 & 0 & 1 \\ \text { 处理 } & 1 & 1 & 1 & 1 & 0 & 0 & 0 & 0 & 0 & 1 \\ \text { 爱 } & 1 & 0 & 0 & 0 & 0 & 0 & 1 & 1 & 0 & 1 \\ \text { 深度 } & 1 & 0 & 0 & 0 & 0 & 1 & 0 & 1 & 0 & 1 \\ \text { 学习 } & 2 & 1 & 0 & 0 & 0 & 1 & 1 & 0 & 1 & 1 \\ \text { 机器 } & 1 & 1 & 0 & 0 & 0 & 0 & 0 & 1 & 0 & 1 \\ \text { 。 } & 3 & 2 & 1 & 1 & 1 & 1 & 1 & 2 & 1 & 0 \\ \hline \end{array}

SVD奇特值分化

从矩阵视点来看

公式为：

U\Sigma V^T

怎样分化的涉及到数学知识，我等就不必深究了。总之简略来讲便是将 $M$ 矩阵分化成一个 $U$ ，一个 $\Sigma$ ，一个 $V^T$ 三个矩阵相乘。

$V$ 和 $U$ 都是正交矩阵
- 正交矩阵：假如 $AAT=E(单位矩阵)A\times A^T = E(单位矩阵)$ ，那A便是正交矩阵。
- 正交矩阵都是方阵。
$\Sigma$ 是一个半正定 $m n$ 阶对角矩阵，其对角线上的值便是 $M$ 矩阵分化的奇特值。
$M$ 矩阵的形状是 $m n$ ，那它的特征值最多为 $min⁡(m,n)\min(m,n)$ 个。

也便是说奇特值分化最终得到的奇特值只有这个小方阵里的对角线元素。

若在 ${\Sigma}$ 中仅保存 $d$ 个 $(d<min⁡(m,n))(d<\min(m,n))$ 最大的奇特值（ $U$ 和 ${V}$ 也只保存相应的维度），则被保存的奇特值组成的对角矩阵被称为切断奇特值分化 (Truncated Singular Value Decomposition，TSVD)。

从向量视点看

M=1u1v1T+2u2v2T+…+rurvrT其间r=min⁡(m,n)M=\sigma_1 u_1 v_1^{\mathrm{T}}+\sigma_2 u_2 v_2^{\mathrm{T}}+\ldots+\sigma_r u_r v_r^{\mathrm{T}} \quad 其间r = \min(m,n)

其间等式右边每一项前的系数 $\sigma$ 便是奇特值， $u$ 和 $v$ 分别表明列向量，每一项 $u v^{T}$ 都是秩为 1 的矩阵。奇特值满足 $1≥2≥…≥r>0\sigma_1 \geq \sigma_2 \geq \ldots \geq \sigma_r>0$ 。

这样就能够和前边的切断奇特值对上了。前边咱们说到，咱们能够挑选保存多少奇特值。一个矩阵 $M$ 分化后最多有 $min⁡(m,n)\min(m,n)$ 个奇特值。

看一下下图，是借用知乎上的图，从左到右依次是原图、奇特值选1、5、50时候的样子。

当切断奇特值矩阵挑选 $r = 1$ 时，

$\sigma_1 u_1 v_1^{\mathrm{T}}$

当切断奇特值矩阵挑选 $r = 5$ 时，

$\sigma_1 u_1 v_1^{\mathrm{T}} + \sigma_2 u_2 v_2^{\mathrm{T}} + \sigma_3 u_3 v_3^{\mathrm{T}} +\sigma_4 u_4 v_4^{\mathrm{T}} +\sigma_5 u_5 v_5^{\mathrm{T}}$

当切断奇特值矩阵挑选 $r = 50$ 时，

$\sigma_1 u_1 v_1^{\mathrm{T}}+ \sigma_2 u_2 v_2^{\mathrm{T}} + … + \sigma_{50} u_{50} v_{50}^{\mathrm{T}}$

随着项数逐步增大， $M^{'}$ 逐步复原 $M$ ，就像泰勒展开式相同，项数越多越挨近原图。

切断奇特值分化实际上是对矩阵 $M$ 的低秩近似。经过切断奇特值分化所得到的矩阵 $U$ 中的每一行，则为相应词的 $d$ 维向量表明， 该向量一般以为其具有接连、低维和稠密的性质。由于 $U$ 的各列相互正交，因此能够以为词表明的每一维表达了该词的一种独立的“潜在语义”，所以这种办法也被称作潜在语义分析（Latent Semantic Analysis，LSA）。别的， $V^T$ 的每一列也能够作为相应上下文的向量表明。

留意： $U$ 和 $VT\Sigma V^T$ 是不相等的，相当于两套表明，咱们在这挑选 $U$ 作为 $M$ 的稠密表明。

代码

不管是NumPy仍是PyTorch 中都自带了SVD分化。

直接使用.linalg.svd()办法即可。

import torch
M = torch.Tensor([[0, 2, 1, 1, 1, 1, 1, 2, 1, 3],
                  [2, 0, 1, 1, 1, 0, 0, 1, 1, 2],
                  [1, 1, 0, 1, 1, 0, 0, 0, 0, 1],
                  [1, 1, 1, 0, 1, 0, 0, 0, 0, 1],
                  [1, 1, 1, 1, 0, 0, 0, 0, 0, 1],
                  [1, 0, 0, 0, 0, 0, 1, 1, 0, 1],
                  [1, 0, 0, 0, 0, 1, 0, 1, 0, 1],
                  [2, 1, 0, 0, 0, 1, 1, 0, 1, 1],
                  [1, 1, 0, 0, 0, 0, 0, 1, 0, 1],
                  [3, 2, 1, 1, 1, 1, 1, 2, 1, 0]])
u, s, v = torch.linalg.svd(M)
print((u @ torch.diag(s) @ v).int()) # 乘起来
torch.set_printoptions(precision=3, sci_mode=False)
print(u)  # M 的 稠密表明

成果：

乘起来能够看到SVD之后的成果还能再拼回去，不是在骗你。

tensor([[ -0.500, 0.724, 0.351, 0.253, -0.025, 0.193, 0.000, -0.000, -0.000, 0.017],

$\quad\quad\quad$ [ -0.384, 0.052, -0.463, -0.519, 0.394, 0.363, 0.000, -0.000, -0.000, 0.282],

$\quad\quad\quad$ [ -0.218, 0.036, -0.398, 0.156, -0.168, -0.182, 0.072, -0.138, -0.802, -0.200],

$\quad\quad\quad$ [ -0.218, 0.036, -0.398, 0.156, -0.168, -0.182, -0.501, 0.586, 0.270, -0.200],

$\quad\quad\quad$ [ -0.218, 0.036, -0.398, 0.156, -0.168, -0.182, 0.429, -0.448, 0.531, -0.200],

$\quad\quad\quad$ [ -0.183, -0.010, 0.228, -0.419, 0.070, -0.258, 0.529, 0.468, -0.033, -0.409],

$\quad\quad\quad$ [ -0.183, -0.010, 0.228, -0.419, 0.070, -0.258, -0.529, -0.468, 0.033, -0.409],

$\quad\quad\quad$ [ -0.293, -0.300, 0.152, -0.252, -0.789, 0.302, 0.000, -0.000, 0.000, 0.155],

$\quad\quad\quad$ [ -0.208, 0.015, 0.087, -0.079, -0.027, -0.708, 0.000, 0.000, 0.000, 0.664],

$\quad\quad\quad$ [ -0.515, -0.615, 0.226, 0.416, 0.356, 0.070, -0.000, 0.000, -0.000, -0.038]])

SVD解决词分布式表示稀疏性

SVD奇特值分化

从矩阵视点来看

从向量视点看

代码

作者信息

SVD解决词分布式表示稀疏性

SVD奇特值分化

从矩阵视点来看

从向量视点看

代码

相关文章

langchain-模型和prompt快速筛选平台

Fastlane自动化打包到蒲公英

SpringBoot 多模块项目构建（父/子模块）

深入浅出Handler(七) IdleHandler的巧用

作者信息