XLNet详解-六虎

这是我参加8月更文应战的第31天，活动概况检查：8月更文应战

B站视频说明

“干翻芝麻街”

2018 年，谷歌发布了依据双向 Transformer 的大规模预练习言语模型BERT，改写了 11 项 NLP 使命梯度的最优功用记载，为 NLP 范畴带来了极大的惊喜。很快，BERT 就在圈内广泛开来，也连大学英语四六级续呈现了许多与它相关的新工作

BERT 带来的震慑还未平息大学生入党申请书，来自卡耐基梅隆大学与谷歌大脑的研讨者又提出新式预架构师证书练习言语模型变量 XLNet，在 SQu大学生助学借款AD、GLUE、RACE 等 20 个使命上全面跨越 BERT

作者标明，BERT 这样依据去噪自编码器的预练习模型能够很好地建模双向语境信息，功用优于依据自回归言语模型的预练习办法。然而，由于需求 mask 一部分输入，BERT 疏忽了被 mask 方位之间的梯度自愿是什么意思依托联络，因而呈现预练习和微调作用的差异（pretrain-finetu梯度是什么意思ne discrepancy）

依据这些优缺陷，该研讨提出了一种泛化的自回归预练习模型 XLNet。XLNet 能够：1）经过最大化悉数或许的因式分化次序的对数似大学生入党申请书然，学习双向语境信息；2）用自回归自身的特征克服 BERT 的缺陷。此外，XLNet 还交融了当时最优自回归模型 Transformer-XL 的思路

究竟，XLNet 在 20 个使命上超过了 BERT 的体现，并在 18 个使命上取得了当时最佳作用（state-of-the-a架构图怎样做wordrt），包括机器问答、天然言语揣度、情感剖析和文档排序

早年跨越 BERT 的模型许多都在它的基础上做一些批改，本质上模大学英语四级报名官网型架构和使命都没有太大改动。可是在这篇新论文中，作者从自回归（autoregressive）和自编码（autoencoding）两大范式剖析了当时的预练习回归模型怎样树立言语模型，并发现它们虽然各自都有优势，但也都有难以处理的困难。为此，大学英语四六级成果查询时刻研讨者提出 XLNet，并期望结合大阵营的优异特点

AR与AE两大阵营梯度

自回归言语模型（AutoRegressive LM）

在ELMO／BERT出来之前，咱们一般讲的言语模型其实是依据上文内容猜想下一个或许跟从的单词，便是常说的梯度怎样求自左向右的言语模型使命，或许反过来也行（便是依据下文猜梯度电费是怎样收费的测前面的单词）。这种类型的LM被称为自回归言语模型。GPT 便是典型的自回归言语模型。ELMO虽然看上去运用了上文，也运用了下梯度怎样求文，可是本质变量之间的联系上仍然是自回归LM，这个跟模型详细怎样结束有联络。ELMO是别离做回归模型的决定系数了两个方向的变量之间的联系自回归LM架构（从左到右以及从右到左两个方向的言语模型），然后把LSTM的两个方向的隐状况拼接到一起，来体现双向言语模型这个事情的。所以其本质上仍然是自回归言语模型

给定文本序列 $x=[x1,…,xT]mathbf{x}=[x_1,…,x_T]$ ，言语模型的方针是调整参数使得练习数据上的似然函数最大：

p_the梯度下降法ta(mathbf{x})=sum_{t=1}^T log p_theta大学英语四六级(x_t vert mathbf{x}_{<t})=sum_{t=1}^T log fra大学英语四六级c{exp(h_theta(mathbf{x}_{1:t-1})^T e(x_t))}{sum_{x’}exp(h_theta(mathbf{x}_{1:t-1})^T e(x’))}

记号 $x<tmathbf{x}_{<t}$ 标明 $t$ 时刻之前的悉数 $x$ ，也便是 $x1:t−1mathbf{x}_{1:t-梯度怎样求1}$ 。 $h(x1:t−1)h_theta(mathbf{x}_{变量min表明什么类型的变量1:t-1})$ 是RNN或许Tr大学四六级ansf架构图模板ormer（回归模型中怎样添加交互项注：Transforme大学英语四六级成果查询时刻r也能够用于言语模型，比方在OpenAI GPT）编码的t时刻之前的隐状况。 $e (x)$ 是词 $x$ 的embedding

自回归言语模型的缺陷是无法一起运用上下文的信息，形似ELMO这种双梯度怎样求向都做，然后拼接看上去能够处理这个问题，但其实交融办法过于简略，所以作用其实并不是太好。它的利益跟轻贱NLP使命有关，比方生成类NLP使命，比方文本摘要，机器翻译等，在实践生成内容的时分，便是从左向右的，自回归言语模型天然匹配这个进程。而Bert这种DAE（Denoise AutoEncoder）方式，在生成类NLP使命中，面对练习进程和运用进程不一起的问题，导致生成类变量名的命名规矩的NLP使命到目前为止都做不太好

自编码言语模型（A变量是什么意思ut大学四六级oEncoder LM）

BERT经过将序列 $x$ 中随机挑选15%的Token变成[MASK]得到带噪声版本的 $x^hat{mathbf{x}}$ 。假定被Mask的原始值为 $x$ ，那么BERT希变量min表明什么类型的变量望尽量依据大学英语四六级上下文康复（猜想）出原始值，也便是：

log⁡p(x∣x^)≈∑t=1Tmtlog⁡p(xt∣x^)=∑t=1Tmtlog⁡exp⁡(H(架构x)tTe(xt))∑x′ex架构师和程序员的差异p⁡(H(x)tTe(x′))un梯度是什么意思derset{theta}{max};log p_theta(bar{mathbf{x}} | hat{mathbf{x}}) approx sum_{t=1}^Tm_t log p_theta(x_t | hat{mathbf{x}})=sum_{t=1}^T m_t log frac架构师{exp(H_theta(mathbf{x})_{t}^T e(x_t))}{sum_{x’}exp(H_theta(mathbf{x})_{t}^T e(x’))}

上式中，若 $m_t=1$ 标明 $t$ 时刻是一个Mask，变量的界说需求康复。 $HH_theta$ 是一个Transformer，它回归模型拟合作用判别把长度为 $T$ 的序列 $x$ 映射为隐状况的序列 $H(x)=[H(x)1,H(x)2,…,H(回归模型x)T]H_theta(mathbf{x})=[H_thet回归模型a(mathbf{x大学专业})_1, H_theta(mathbf{x})_2, …, H_theta(mathbf{x})_T]$ 。留心：前面的言语模型的大学四六级RNN在 $t$ 时刻只能看到之前的时刻，因而记号是 $h(x1:t−1)h_theta(梯度自愿mathbf{x架构师薪酬一月多少}_{1大学英语四六级:t-1})$ ；而BERT的Transformer（不同与用于言语模型的Transformer）能够一起看到整个语句的悉数Token，因而记号是 $H(x)H_theta(mathbf{x})$

这种AE LM的优缺陷正好和AR LM反过来，它能比较天然地融入双向言语模型，一起看到被猜想单词的上文和下文，这是利益。缺陷是啥呢？首要在输入侧引进[Mask]符号，导致预练习阶段和Fine-tuning阶段不一起的问题，由于Fine-tuning阶段大学英语四级考试是看不到[Mask]符号的

XLNet的起点便是：能否交融自回归L架构师证书M和DAE LM两者的利大学四六级益。详细来说便是，站在AR的视点，怎样引进和双向言语模型等价的作用

Permutation Language Model

作者们发现，只需在 AR 以及 AE 办法中再参加一个过程，就能够完美地将两者一起同来，那便是Permut架构atio变量n

具梯度下降体完变量是什么意思结办法是，经过随机取一变量与函数句话摆放的一种，然架构师和程序员的差异后将结束一定量的词给“讳饰”（和 BERT 里的直接替换”[MASK]” 有些不同）掉，究竟用 AR 的办法来按照这种摆放办法依此猜想被“讳饰”掉的词

这儿变量的界说我略微解说下，为什么是”讳饰”结束的一些词，以及随机打乱语句的次序有什么用？输入语句正常的次序是”1 2 3 4 5 6 7″，常规的自回归LM无法一起考虑上下文回归模型剖析信息。梯度怎样求假定能够一起考虑上下文信息，那”3″这个词，需求有”1 2 4 5 6 7″这些信息，换句话说，在猜想”3″大学之前，咱们需求确保模型现已看过”1 2 4 5 6 7″（无所谓次序）。而打乱语句的次序之后（比方说上图的比方），3这个词架构是什么意思就来到了语句的结束，此时按照梯度稀释法的详细步骤自回归LM猜想”3″的时分，模型现已看过了”1 2 4 5 6 7″，由此便考虑到了”3″的上下文信息。当然，句架构师需求把握哪些常识子究竟怎样打乱是无所谓的，由于咱们的方针不是详细大学生助学借款要猜想哪个词，而是谁在究竟，就猜想谁

这儿再谈一个有意思的点，究竟该挑选究竟几个做讳饰呢？作者这儿设了一个超参数大学生助学借款 K，K 等于总大学英语四级报名官网长度除以需求猜想的个数。拿上面梯度洗脱的比方，总长为 7 而需求猜想梯度下降法为 2，所以 K = 7/2。而论文中试验回归模型怎样树立得出的最佳 K 值介于 6 和 7 （更好）之间，其实假定咱们取 K 的倒数（即 $16,17frac{1}{6},frac{1}{7}$ ），然后转为百分比，就会发现最佳的比值介于 1变量之间的联系4.3% 到 16.7% 之间架构图怎样做word，还记得 BERT 论文的同学必定就会初步觉得眼熟了。由于 BERT 里将 Token 讳饰成 “[MASK]” 的百分比便是 15%，正梯度自愿好介于它们之回归模型的决定系数间，我想这并不只是偶然，必定有更深层的架构联络

关于一个长度为 $T$ 的语句，咱们能够遍历 $T!$ 种摆放，然变量是什么意思后学习言语模型的大学排名2021最新排名参数，可是这个核算量十分大（10个梯度稀释法的详细步骤词的语句就有10!=3628800种组合）。因而实践咱们只随机的采样 $T!$ 里的部分摆放，为了用数学言语描绘，咱们引进几个记号。 $ZTmathcal{Z}_T$ 标明长度为 $T 回归模型的根本假定$ 的序列的悉数摆放组成的梯度下降集合，则 $mathcal{Z}_T$ 是其间一种大学排名2021最新排名摆放办法回归模型。咱们用 $z_t$ 标明摆放的第 $t$ 个元素，而 $z_{<t}$ 标明 $z$ 的第1到第 $t - 1$ 个元素

举个比方，假定 $T = 3$ ，那么 $ZTmathcal{Z}_T$ 共有大学生入党申请书6个回归模型中怎样添加交互项元素，咱们假定其间之一 $z = [1, 3, 2]$ ，则 $z_3=2$ ，而 $z_{<3}=[1,3]$

有了上面的记号，则Permutation LM的方针是调整模型参数使得下面的似然概率最大：

mathbb{E}_{z si变量是什么意思m mathcal{Z}_T}[sum_{t=1}^Tlog p_the大学生助学借款ta大学英语四六级(x_{z_t}|mathbf{x}_{z_{<t}})]

上面的公式看起来有点凌乱，细读起来其实很简略：从悉数的摆放中采样一种，然后依据这个摆放来分化联合概率成条件概率的乘积，然后加起来

论文中 Permuta梯度tion 详细的结束办法不是打乱输入语句的次序，而是经过梯度下降法对 Transformer 的 Attention Mask 进行操作

比方说序号依次为 1234 的语句，先随机取一种摆放3241。依据这个摆放咱们就做出类似上图的 Attention大学生助学借款 Mask，先看第1行，由于在新的摆放办法中 1回归模型拟合作用判别在究竟一个，依据从左到右 AR 办法，1 就能看到 234 全变量之间的联系部，所以榜首行的 234 方位是赤色的（没有遮盖掉，会用到），以此类推，第2行，由于 2 在新摆放是第二个，只能看到 3 所以 3 方位是赤色，第 3 行，由于 3 在榜首个，看不到其他方位，所以悉数遮盖掉…

没有方针(target)方位信息的问题

上面的思想很简略，可是假定咱们运用规范的Transformer结束时会有问题。下面举个比方

假定输入的语句是”I like New York”，并且一种摆放为z=[1, 3, 4, 2]，假定咱们需求猜想的是 $z_3=4$ ，那么依据Simple LM的公式：

p(Xz3=x∣xz1z2)=p(X4=x∣x回归模型的决定系数1×3)=exp⁡(e(x)Th(x1x3))∑x′exp⁡(e(x′)Th(x1x3))p_theta(X_{z_3}=x|x_{z_梯度下降法1z_2})=p_theta(X_4=x梯度怎样求|x_1x_3)=frac{exp(e(x)^Th_theta(x_1x_3))}{sum_{x’}exp(e(x’)^Th_theta(x_1x_3))}

咱们一般用大写的 $X$ 标明随机变量，大学专业比方 $X_4$ ，而小写的 $x$ 标明某一个详细取值，比方假定 $x$ 是”York”，则 $p(X4=x)p_回归模型公式theta(X_4=x)$ 标明第4个词是York的概率。用天然言语描绘： $p(X4=x∣x1x3)p_thet梯度电费是怎样收费的a(X_4=x|x_1 x_3)$ 标明的是榜首个词是I，第3个词是梯度洗脱New的条件梯度是什么意思下第4个词是York的概率

其他咱们再假定一种摆放为z’=[1,3,2,4]，咱们需求猜想 $z_3=2$ ，那么：

p(Xz3=x∣xz1z2)=p(X2=x∣x1x3)=exp⁡(e(x)Th(x1x3))∑x′exp⁡(e(x′)Th(x1x3)变量名的命名规矩)p_thet架构师薪酬一月多少a(变量与函数X_{z_3}=x|x_{z_1z_2})=p_theta(X_2=x|x_1x_3)=frac{回归模型查验exp(e(x)^Th_theta(x_1x_梯度怎样求3))}{sum_{x’}exp(e(x’)^Th_theta(x_1x_3))}

咱们先不管猜想的实在值是什么，先假定 $x$ 是”York”时的概率，则 $p(X2=x∣x1x3)p_theta(X_2=x|x_1x_3)$ 标明的是榜首个词是I，第3架构个词是New的条件下第2个词回归模型怎样树立是York的概率

咱们仔细比照一下大学英语四六级上面两个公式会发现它们是相等的。可是根变量英文据阅历，明显这两个概率是回归模型中引进虚拟变量的作用是什么不同的，并且上面的那个概率大一些，由于York跟变量是什么意思在Ne架构师w之后是一个城市，而”York变量提高 New”是什架构么呢？

上面问题的关键是模型并不知道要猜想的那个词在原始回归模型怎样树立序列中的方位。了解Tr变量ansformer大学排名2021最新排名的读者或许会问：不是输入了方位编大学专业码吗？方位编码的信息不能起作用吗？留心：方位编码是和输入的E梯度自愿是什么意思mbedding加到一起作为输入的，因而 $p(X4变量英文=x∣x1x3)p_theta(X_4=x vert x_1x_3)$ 里的 $x_1,x_3$ 是带了方位信息的，模型（或许）知道（依据输入的向量猜想）”I”是榜首个词，而New是第三个词，可是第四个词的向量明显还不知道（知道了就不用猜变量泵测了回归模型的根本假定），大学英语四级考试因而就不或许知道它要猜想的词究竟是哪个方位的词，所以咱们有必要”显式”的告诉模型我要猜想哪个方位的词

为了后边的描绘，咱们大学英语四级考试再把回归模型查验上面的两个公式写出愈加一般的方式。给定摆放z，咱们需求核算 $p(Xzt∣xz<t=x)p_theta(X_{z_t} vert mathbf{x}_{z_{<t}}=x)$ ，假定咱们运用一般的Transformer，那么核算回归模型的根本假定公式为：

p(Xzt=x∣xz<t)=exp⁡(e(x变量提高)Th(xz<t变量的界说))∑x′exp⁡(e(x′)架构是什么意思Th(xz<t))p_theta(X_{z_t}=x vert mat梯度洗脱hbf{x}_{z_{<t}})=frac{exp(e(x)^Th_theta(mathbf{x}_{z_{<t}}))}{sum_{x’}exp(e(x’)^Th_theta(mathbf{x}_{z_{<t}}))}

依据前面的谈论，咱们知道问题的关键是模型并不知道要猜想的究竟是哪个方位的词，为了处理这个问题，咱们把猜想的方位 $ztz_变量t$ 放到模型里：

p(Xzt=x∣大学生助学借款xz<t)=exp⁡(e(x)Tg(xz<t,zt))∑x′架构师需求把握哪些常识exp⁡(e(x′)Tg(xz<t,zt))p_theta(X_{z_t}=x ver回归模型有哪些t mathbf{x}_{z_{<t}})=frac{exp(e(x)^Tg_theta(mathbf{x}_{z_{<t}}, z_t架构图怎样做word))}{sum_{x’}exp(e(x’)^Tg_theta(mathbf{变量提高x}_{z_{<t}}, z_t))}变量提高

上式中 $g(xz<t,zt)g_theta(mathbf{x}_{z回归模型剖析_{<t}}, z_t)$ 标明这是一个新的模型 $g$ ，并且它的参数除了之前的词 $xz<tmathbf{梯度怎样求x}_{z_{&l回归模型中引进虚拟变量的作用是什么t;t}}$ ，还有要猜想的词的方位 $z_t$

Two-Stream Self-Attention

接下来的问题是用什么模型来标明 $g(xz<t,zt)g_theta(mathbf{x}_{z_{<t}}, z_t)$ 。当然有许多种可选的函数（模型），咱们需求运用 $xz<tmathbf{x}_{z_{<t}}$ ，经过Attention机制提取需求的信息回归模型，然后猜想 $z_t$ 方位的词。那么它需求满意如下两点要求：

为了猜想 $xztmathbf{x}_{z_t}$ ， $g(xz<t,zt)g_theta(mathbf{x}_{z_{<t}}, z_t)$ 只能运用方位信息 $z_t$ 而不能运用 $xztmathbf{x梯度下降法}_{z_t}$ 。这是明显的：你猜想一个词当然不能知道变量是什么意思要猜想的是什么词
为了猜想 $z_t$ 之后的词， $g(xz<t,zt)g_theta梯度自愿(mat回归模型中怎样添加交互项hbf{x}_{z_{<t}}, z_t)$ 有必要编码了 $xztmathbf{x}架构图模板_{z_t}$ 的信息（语义）

可是上面两点要求关于一般的Transformer来说是对立的无梯度洗脱法满意的。这儿十分重要，所以我这儿再烦琐一点举一个比方

假大学英语四六级定输入的语句仍是”I like New York”，并且一种摆放为 $z = [1, 3, 4, 2]$ ，假定 $t = 2$ （即 $zt=z2=变量min表明什么类型的变量3z_回归模型的决定系数t=z_2=3$ ），咱们现在要核算 $g(xz&架构是什么意思lt;t,zt)g_theta(mathbf{x}_{z_{&l回归模型有哪些t;t}}, z_t)$ ，也便是给定榜首个方位的词为”I”，猜想第三个方位为”New”的概率。明显咱们不能运用”New”自身的信息，而只能依据榜首个方位的”I”来猜想。假定咱们十分走运的找到了变量名的命名规矩一很好的函数 $g$ ，它能够能够比较好的猜想这个概率 $g(x1,z2)g_theta(x_1,回归模型公式 z_2)$ 。现在咱们轮到核算 $t = 3$ （即 $z_3=4$ ），也便是依据 $g(x1,z2)g_theta(x_1,回归模型中引进虚拟变量的作用是什么 z_2)$ 和 $z_t$ 来猜想”York”。明显，知道第三个方位回归模型怎样树立是”New”关于猜想第四个方位是”Y梯度是什么意思ork”会十分有帮助，可是 $g(x1,z2)g_theta(x_1, z_2)$ 并没有New这个词的信息。读者或许会问：你不是说 $g$ 可大学英语四级报名官网以比较好的依据第大学英语四级报名官网一个词梯度下降“I”猜想架构师和程序员的差异第三个词”New”的概率吗？这儿有两点：”I”后边呈现”New”的概率并梯度不高；在猜想”York”时咱们是知道第三个方位是New的，只不过由于模型的捆绑，咱们无法重复运用这个信息

为了处理这个问题，论文引进了两个Stream，也便是两个隐状况：

内容隐状况 $h(x回归模型中怎样添加交互项z<t)h_theta(mathbf{x}_{z_{<t}})$ ，简写为 $h_{z_t}$ ，它就和规范的Transformer相同，既编码上下文（context）也编码 $xztmathbf{x}_{z_t}$ 的内容
查询隐状况 $g(xz<t,zt)g_theta(mathbf{x}_{z_{<t}}, z_t)$ ，简写为 $g_{z_t}$ ，它只编码上下文和要猜想的方位 $z_t$ ，可是不包括 $xztmathbf{x}_{z_t}$

下面咱们介绍一下核算进程。咱们首要把查询隐状况 $g_i^{(0)}$ 初始化为一个变量 $w 梯度洗脱$ ，把内容隐状况 $h_i^{(0)}$ 初始化为词的E变量与函数mbedding $e(x_i)$ 。这儿的上标0标明第0层（不存在的层，用于核算榜首层）。因变量与函数为内容隐状况能够编码当时词，因而初始化为词的Embedding是比较适合的

接着从m=1一直到第M层，逐层核算：

g_{z_t}^{(m)} & leftarrow Attention大学英语四级考试(Q=g_{z_t回归模型剖析}^{(m-1)},KV=h_{color{red} {z_{<t}}}^{(m-1架构是什么意思)};theta)架构 h_{z_t}^{(m)} & leftarrow Attention(Q=h架构图_{z大学排名2021最新排名_t}^{(m-1)},KV=h_{color{red} {z_{le大学生助学借款 t}}}^{(m-1)};theta) end{al回归模型有哪些ign大学英语四级报名官网ed}

Query Stream: use $z_t$ but cannot s架构师需求把握哪些常识ee $xztmathbf{x}_{z_t}$
Content Stream: use both $z_t$ and $xztmathbf{x}_{z_t}大学英语四六级$

上面两个流别离运用自己的Query向量 $gztg_{回归模型查验z_t}$ 和Content向量 $h变量是什么意思zth_{z_t}$ ；可是Key和Value向量都是用的 $h$ 。可是留心Quer回归模型有哪些y流不能拜访 $ztz回归模型_t$ 的内容，因而K和V是 $hz<t(m−1)h_{z_{<t}回归模型中怎样添加交互项}^{(m-1)}$ 。而Content流的KV是 $hz≤t(m−1)h_{z_{le t}}^{(m-1)}$ ，它包括 $xztmathbf{x}_{z_t}$

上面的梯度更新和规范的Self Attention是相同的。大学四六级在fine-tuning的时分，咱们能够丢掉掉Query流而只用Content流。究竟在核算公式的时分咱们能够用最上面一层的Query向量 $g_{z_t}^{(M)}$

咱们能够经过下图来直观的了解核算进程

左上图是Content流的核算，假定摆放为 $3 回归模型公式 \to 2 \to 4 \to 1 回归模型中引进虚拟变量的作用是什么$ ，并且咱们现在猜想第1个方位的词的概率。依据摆放回归模型查验，咱们能够参看悉数4个词的Content，因而 $K&V=[h1(0),h2(0),h3(0),h4(0)]K&V=[h_1^{(0)},h_2^{(0)},h_3^{(回归模型拟合作用判别0)},h_4^{(0)}]$ ，而 $Q=h_1^{(0)}$

左下图是Query流的变量之间的联系核回归模型拟合作用判别算，由于不能参看自架构图模板己的内容，因而 $K&a变量之间的联系mp;V=[h2(0),h3(0),h4(0)]K&V=[h_2^{(0)},h_3^{(0)},h_4^大学生入党申请书{(0)梯度自愿}]$ ，而 $Q=g1(回归模型怎样树立0)Q=g_1^{(0)}$

图的右边是完好的核算进程，咱们从下往上看。首要 $h$ 和 $g$ 别离被初始化为 $e(x_i)$ 和 $W$ ，然后Con大学英语四六级成果查询时刻tent M回归模型剖析ask和Qu大学生入党申请书ery Mask核算榜首层的输出 $h^{(1)}$ 和 $g^{(1)}$ ，然后核算第二层……。留心最右边的两个Mask，咱们先看Conte变量类型有哪些nt Mask。它的榜首行满是回归模型查验红点，标明第梯度怎样求一个词能够attend to悉数的词（依据 $3 \to 2 \to 4 回归模型中怎样添加交互项 \to 架构图怎样做word 1$ ），第架构师和程序员的差异二个词能够attend to梯度是什么意思它自己和第三个词……。而梯度怎样求Query Mask和Content Mask的差异便是不能attend to自己，因而对角线都是白点

到此为止，XLNet的核心思想现已比较清楚了。首要运用LM，可是为了处理上下文的问题，引进了Permutation LM。Permutation LM在猜想时需求target的方位信息，因而经过引进Two-Stream，Content流编码大学英语四六级到当时时刻的内容，而Query流只参看之前的前史以及当时要猜想方位。究竟为了处理核算量过大的问题，关于一个语句大学四六级，咱们只猜想后 $1Kfrac{1}{K}$ 个词

接大学之道下来XLNet借鉴了Transformer-XL的利益，它关于很长的上下文的处理是要优于传统的T大学英语四级报名官网ransformer的。我这儿只是简略的介绍Transf回归模型中怎样添加交互项ormer-XL，有爱好的读者能够参看Transformer-XL论文

Transformer-XL

Segment Recurrence Mechan架构图用什么软件做ism

虽然Transformer开端是为翻译使命回归模型的根本假定而构建的，但最近的趋势标明，它在言语建模上的运用也回归模型怎样树立能够带来明显的作用。可是，为了取得最佳运用，需求对其架构进行一些批改

为什么？Transformer有什么问题？与RNN比较，Transformer的一项重大改大学生入党申请书进是其捕获长时刻依托联络的能力。可是，Transformer需求存储的中心过程（梯度）信息比RNN回归模型有哪些要多的多，并且跟着序列长度的添加而添加。换句话说，假定你妄图一次架构输入整个文档，内存或许会爆炸（BOOOOM！）

为了避免呈现此问题，前期有些做法是将文档梯度稀释法的详细步骤分红固定架构图怎样做word大小的文本段（Segment），一次练习一段架构师薪酬一月多少。这虽然处理了内存问题，可是破坏了模型捕获长时刻依托联络的能力。例如语句”The daughter had a nice umbrella | that her mother gave her”，假定”daug回归模型hter”和”her”归于不同段。那么在大学生入党申请书编码”her时将无法知晓”daughter”的信息

怎样处理这个问题呢？下面就轮到Transformer-大学生入党申请书XL出场了

Transformer-XL的重要组件之一，**Segment Recurrence Mechanism（段循环机制）**想做的就变量是，能不能在前一段核算完后，将它核算出的隐情大学英语四级报名官网况都保存回归模型剖析下来，存到一个Memeory中，架构师需求把握哪些常识之后在核算当时段的时分，将之前存下来的隐状况和当时段的隐状况拼起来，作为Atte梯度电费是怎样收费的ntion机制的K和V，然后取得更长的上下文信息

依据之前的思路，咱们用cache缓存部分前史的状况。核算梯度的时分只运用本segment的信息，可是在forward的时分其实用到了之前梯度下降的segment（甚至好久早年的segment）的信息，因而它又有点类似于RNN。下面咱们用数学言语来描绘状况重用的进程。假定两个相邻的segment为 $s=[x,1,x,2,…,x架构图,L]s_tau=[x_{tau,1}, x_{tau,2}, …, x_{tau,大学生助学借款L}]$ 和 $s+1=回归模型中怎样添加交互项[x+1,1,x+1,2,…,x+1,L]s_{tau+1}=[x_{tau+1,1}, x_{tau+1,2}, …, x_{tau+1,L}]$ 。假定segment $ss_tau$ 第n层的隐状况序列为 $hn∈RLdh_ta回归模型中怎样添加交互项u^n in R^{L times d}$ ，那么核算segment $s+1s_{tau+1}$ 的隐状况的进程如下：

begin{split} &架构师薪酬一月多少 t梯度电费是怎样收费的ilde{h}_{tau+1}^{n-1}=[SG(h_{tau}梯度下降法^{n-1}) circ h_{tau+变量英文1}^{n-1}] &amp变量; q_{tau+1}^n, k_{t梯度自愿au+1}^n, v_{tau+1}^n=h_{ta回归模型有哪些u+1}^{n-1架构图怎样做word}W_q^T, tilde{h}_{tau+1}^{n-1}W_k^T, tilde{h}_{tau+1}^{n-1}W_v^T & h_{tau+1}^n=text{Transform架构图用什么软件做er-Layer}(q_{tau+1}^n, k_{tau+1}^n, v_{tau+1}^n) end{spl回归模型的根本假定it}

其间， $SG(hn−1)SG(h_{tau}^{n-1})$ 函数代表 $hn−1h_{ta大学英语四六级成果查询时刻u}^{n-梯度洗脱1}$ 不参加梯度核算。 $[hu∘hv][h_{u} circ h_{v}]$ 标明向量拼接， $W_q^T,W_k^T.W_v^T$ 是模型参数。核算Query的时分用的是本架构师段的大学专业前一层信息 $h+1n−1h_{tau+1}^{n-1}$ ，而核算Key和Value用的是 $h架构师和程序员的差异~+1n−1t架构图模板ilde{h}_{tau+1}^{n-1}$

原则上只需GPU内存容许，该办法能够运用前面更多段的信息，查验阶段也能够取得更长的依托（类似于DenseNet）

Relative Positional Encoding

在Transformer中，一个重回归模型的决定系数要的地方在于其考虑了序列的方位信息。在分段的状况下，假定只是关于每个段仍直接运用Transformer中的方位编码，即每个不同段在同一个方位上的标明运用相同的方位编码，就会架构师呈现问题。比方，第 $i - 2$ 段和第 $i - 1$ 段的榜首个方位将具有相同的方位编码，但它们关于第 $i$ 段的建模重要性明显并不相同（例如第 $i - 2$ 段中的榜首个方位重要性或许要低一些）

因而Transformer-XL提出了一种相对梯度自愿是什么意思方位编码，不再关怀句中词的必定方位信息，而是相对的，比方说两个词之间隔了多少个词这样的相对信息

在规范的T架构是什么意思ransformer里，同一个Segment的 $q_i$ 和 $k_j$ 的atten大学生入党申请书tion score这样分化架构是什么意思

A_{i,j}^{abs} &am变量之间的联系p; = (W_q(E_{x_i}+U_i))^T (W_k(E_{x_j}+U_j)) & = (E_{x_i}+U_i)^TW_q^TW_k(E_{x_j}+U_j) & = E_{x_i}^TW_q^TW_k(E_{x_j}+U_j) + U_i^TW_q^TW_k(E_{x_j}+U_j) & = underbrace{E^T_{x_i}架构图用什么软件做W_q^TW_kE_{变量名的命名规矩x_j}}_{(a)}+underbra变量是什么意思ce{E^T_{x_i}W_q^TW_kU_j}_{(b)} & + underbrace{U_i^TW_q^TW_kE_{x_j}}_{(c)}+underbrace{U_i^TW_q^TW_kU_j}_{回归模型拟合作用判别(d)} end{aligned}

其间， $E_{x_i}$ 是词 $i$ 的词向量， $U_i$ 是词 $i$ 的方位向量

(a)(b)(c)(d)四项各有各的含义：(a)标明纯依据内容之间的寻址；(b)和(c)则别离是 $i$ 方梯度下降法位的内容和方位信息分回归模型查验别相关于 $j$ 方位的方梯度位和内容信息进行的寻址；(d)则是纯依据方位之间的寻址。架构图用什么软件做所以要改善的话，就需求对后三个和方位信息相关的项进行改善

Transformer-XL给出的改善计划是这样：

A_{i,j}^{rel} &amp架构是什么意思; = underbrace{E^T_{x_i}W_q^TW_{k,E}E_{x梯度电费是怎样收费的_j}}_{(a)}+underbrace变量提高{E^T_{x_i}W架构图模板_q^TW_{回归模型有哪些k,R}color{bl变量类型有哪些ue}{R_{i-j}}}_{(b)} & + underbr回归模型公式ace{{color{red}{u^T}}W_{k,E}E_{x梯度下降_j}}_{(c)} + underbrace{{color{red}{v^T}}W_{k,R}color{b架构是什么意思lue}{R_{i-j}}}_{(d)} end{aligned}

和前大学英语四六级面的 $Ai,jabsA_架构图模板{i,j}^{abs}$ 比较，榜首个改动是将(b)和(d)里的必定方位编码 $U_j$ 都替换成相对方位编码向量 $Ri−jR_{i-j}梯度下降法$ 。留大学意这儿的 $R$ 是之前介绍的正弦函数的编码办法，它是固定的，不需求学习
在(c)顶用可练习的 $R^d$ 替代原本的 $U_i^TW_q^T$ 。由于咱们假定Att架构图用什么软件做ention score只依托于 $i$ 和 $j$ 的相对方位，而与 $i$ 的必定方位回归模型中引进虚拟变量的作用是什么无关，所以这梯度稀释法的详细步骤儿关于悉数的 $i$ 都相同。也便是 $U^TW_q^T$ ，所以能够用一个新的 $u$ 来标明。同理，(d)中的 $R^d$ 也相同
究竟，咱们把Key的转化矩阵 $W_k$ 拆分红 $W_{k,E}$ 和 $W_{k,R}$ ，别离给内容向量和相对方位向量用

在上面的新公式里，每一项的含义都十分清楚：(a)标明内容的核算，也便是 $x_i$ 的Embedding乘以转化矩阵 $W_q$ 和 $x_j$ 的Embedding乘以 $W_{k,E}$ 的内积；(b)标明依据内容的方位偏置，也便是 $i$ 的向量乘以相对方位编码；回归模型查验(c)标明大局的内容大学生助学借款偏置；(d)标明大局的方位偏置

Relative梯度下降 Segment Encoding

由于许多轻贱NLP使命中都包括了多个语句的状况，比方问答使命。下面咱们谈论怎样在自回归框架下怎样预练习两个seg大学ment。和BERT相同，咱们挑选两个语句，它们有50%的概率是接连的语句（前后语义相关），有50%的概率是不接连（无关)的语句。咱们把这两个语句拼接后架构师当成一个语句来学习大学英语四六级Permutation LM。输入和BERT是相回归模型剖析似的：[A, SEP, B, SEP, CLS]，这儿SEP和CLS是特其他两个Token，而A和B代表两个Segment。与BER回归模型怎样树立T略微不同，这儿把梯度电费是怎样收费的CLS放到了究竟。原因是由于关于BE大学RT来说，Self-Attention能够感知方位是变量提高由于咱们把方位信息编码到输大学排名2021最新排名入向量了，Self-Attention的核算自身不考虑方位信息。而前面咱们谈论过，为了削减核算量，这儿的摆放言语模型一般只猜想究竟1/架构师K个Token。咱们期望CLS编码悉数两个Segment的语义，因而期望它是被猜想的目标，而放到究竟必定是会被猜想的

可是和BER变量类型有哪些T不同，XLNet并没有添加一变量提高个猜想下一个语句的Ta变量min表明什么类型的变量sk，原因是经过试验剖析这个Task加进去后并不是总有帮助。【注：其大学生助学借款实许多做法都是某些作者的阅历，后边许多作者一看某个模型好，那么悉数的Follow梯度下降法，其实也不见得就一定好。有的时分或许只是对某个数据集有作用，或梯度许作用好是其它要素带来的，一篇文章批改了5个要素，其实或许只是某一两个要素是实在带来提高的地方，其它3个要素或许并不有用甚至仍是有少量副作用】

BERT运用的是必定的Segment回归模型查验编码，也便是榜首大学英语四六级个语句关于的Segment id是0，而第二个语句是1。这样假定把两个语句换一下次序，那么输出是不相同的。XLNet运用的是相对的Segment编码，它是在核算Attention的时分判别两个词是否归于同一个Segment，假定方位 $i$ 和 $j$ 的词归于同一个segment，那么运用一个能够学习的Embedding $s_{ij}=s_+$ ，不然 $sij=变量提高s大学英语四级报名官网−s_{ij}=s大学排名2021最新排名_-$ ，也便是说，咱们只关怀它们是归于同一个Segment仍是归于不同的Segment。当咱们从方位 $i$ attend to $j$ 的时分，咱们会这样核算一个新的attention score：

aij=(qi+变量提高b)Tsija_{ij}=(q_i+b)^Ts_{ij}

其间 $q_i$ 是第 $i$ 个方位的Query向量，b是一个可学习的bias。究竟咱们会把这个attentio变量的界说n score加到原本核算的Attention score里，这样它就能学到当 $i$ 和 $j$ 都归于某个segment的特征，以及 $i$ 和 $j$ 归于不同segment的特征

Concl架构是什么意思usion

Transformer-XL的核算全进程如下回归模型中怎样添加交互项：

h^n−1=[SG(mn−1∘hn−1)]qn,kn,vn=hn−1WqnT,h^n−1Wk,EnT,h^n−1WvnTA,i,jn=q,inTk,jn+q,i变量名的命名规矩nTWk,RnRi−j+uTk,jn+vTWk,RnRi−jan=Mask-Softmax(An)vnon=LayerNorm梯度电费是怎样收费的(Linear(an)+hn−1)hn=Positionwise-Feed-Forw架构是什么意思ard(on)begin{aligned} hat{h}_{tau}^{n-1} &amp架构师证书; = [SG(m_{tau}^{n-1} circ h_{tau}^{n-1})] q_{tau}^n, k_{tau}^n, v_{tau}^n & = h_{ta梯度怎样求u}^{n-1}{W_q^n}^T, hat{h}_{tau}^{n-1} {W_{k,E}^n}^T, hat{h}_{tau}^{n-1梯度怎样求} {W_{v}^n变量英文}^T A_{tau, i,j}^n &amp大学四六级; = {q_{tau,i}^n}^T k_{tau,j}^n + {q_{tau,i}^n}架构图怎样做word^T W_{k,R}^nR_{i-j} + u^Tk_{tau,j}^n +v^T W_{k,R}^nR_{i-j}变量与函数 a_tau^n & = t梯度怎样求ext{Mask-S架构图oft大学英语四级考试max}(A_tau^n)v_tau^n o_tau^n &架构图 = text{LayerNorm}(text{Linear}(a架构师需求把握哪些常识_tau^n)+h_tau^{n-1}) h_tau^n &变量名的命名规矩amp; = text{Positionwise-Feed-Forward}(o_tau^n) end{al回归模型的决定系数igned}

关于练习值得一说的是，和 BERT 相同也是一起构建正例（正确的接连架构图模板句梯度是什么意思子）和负例（随机下一句的比方），之后别离对每段进行 Permutati回归模型的根本假定on 处理，然后猜想，关于正例大学英语四级报名官网，后一段会用前一段的信息，而关于负例就不用

关于练习 loss，XLNet 只用了 PLM 的 loss，却没有像 BERT 相同用 Next Sentence Prediction （下句猜想）loss，可是它在语句等级使命体现却不差，关于这个现象感觉十分独特变量类型有哪些，按理说应该是会有帮助的

以下内容仅代表个人观点

XLNet梯度自愿是什么意思全体看起来十分恶心，不如Transformer那么简略直白，并且给我一种拆东墙补西墙的变量提高感觉（引进了Permut梯度电费是怎样收费的ation，所以没有方位信息了，由此又引进了双流留心力）。XLNet在Transformer XL的基础上引进了随机摆放和双流留心力机制，因而使得整个模型变得十分凌乱

XLNet练习总共运大学排名2021最新排名用了126GB纯文本数据，而BERT练习只运变量英文用了13GB的数据。所以虽然究竟成果XLNet超过了BERT，但究竟是由于数据的帮助，仍是模型真的架构很好呢？

Reference

XLNet运行机制及和Bert的异同比较
XLNet原理-李理的博客
XLNet代码剖析(三)-李理架构师证书的博客
Transformer-XL解读
腾跃芝麻街：XLNet详解

XLNet详解

AR与AE两大阵营梯度

自回归言语模型（AutoRegressive LM）

自编码言语模型（A变量是什么意思ut大学四六级oEncoder LM）

Permutation Language Model

没有方针(target)方位信息的问题

Two-Stream Self-Attention

Transformer-XL

Segment Recurrence Mechan架构图用什么软件做ism

Relative Positional Encoding

Relative梯度下降 Segment Encoding

Concl架构是什么意思usion

Reference

相关文章

源码级深度理解 Java SPI

Rust简聊 – 所有权的使用方式

Android GUI扫盲，渲染架构浅析

ART虚拟机GC 全貌

作者信息