本文正在参加「金石方案 . 分割6万现金大奖」

写文章之前先带你们断一下句哦 “一文理清/受控文本生成/开展脉络”


可控文本生成

这个是填坑的,看过带你了解自然言语处理文本生成方向的应该知道我举了个谈天机器人的例子。没看过也没事,持续往下看就行了。

一文理清受控文本生成发展脉络

还是这个例子,你朋友说他焦虑,如果你们俩都是大叔,你能够跟他说:来根烟慢慢。可是如果对方打开青少年形式,你肯定不能这样讲。“来根烟慢慢”就变成了毒数据。

也便是说在一些情况下某些答复是合理的,可是另一些情况下,同样的答复或许就不合理了。咱们就要对操控回复过程中的情绪、人物、语气等等,也便是为了操控对话过程的合理性,生成对话内容的时分就用到了可控文本生成(Controllable Text Generation)。

除了我前边说的是这几个,咱们还能够想到:

  • 在生成故事的时分咱们要考虑故事线和故事结局开展方向。

  • 用文本生成做数据增广的时分,咱们要确定生成的数据在不同的域上散布是均匀的。

  • 人工智能伦理方面,要避免生成有误导性或者争议性的东西,比方性别歧视,种族歧视等等。

  • ……

可控文本生成使命开展之初

其实这个使命很早之前就有了,可是曾经都是根据规则的,哪来什么可控不可控的。可是随着深度学习的开展,这个使命才有了真实的开展。

根据序列模型和特征嵌入

早期的办法是根据一些序列模型和特征嵌入的。

一文理清受控文本生成发展脉络

1603.06155.pdf (arxiv.org)

这篇文章做的主要作业是操控对话生成,经过一个根据使命的模型来保证模型对话过程中的共同性问题。

  • 先是用一个说话人模型(speaker model)将人物进行编码,取得其散布式嵌入。以此捕获使命特征信息,比方说话风格啊,对话布景啊之类的。

  • 再运用对话两边二元模型(dyadic speaker-addressee model)捕获对话者之间交互的特点。

经过上边两个模型,就能够进步模型在对话中的人格共同性,这便是根据特征嵌入

一文理清受控文本生成发展脉络

1707.02633.pdf (arxiv.org)

这个文章是运用RNN模型来操控生成内容,主要是操控文本风格去写影评(所以是真的计划拿来当水军是吗。)

根据深度生成模型

之后便是很多根据生成模型的文章,比方根据VAEs的,根据GANs的,根据能量模型的。了解的人或许知道,GANs、VAEs这些不都是图画那儿的模型吗?怎么都拿来做受控文本了?这就能够拓宽迁移思路了。以下是放了是三个文章,第一个是根据VAE的,让你知道图画到文本的迁移是要考虑连续散布到离散散布的;第二个是根据GAN的,在这儿是学了生成器和鉴别器的思路;第三个便是根据能量模型的,这块超出我常识范围了,感兴趣的能够自己去看。

  • [1703.00955] Toward Controlled Generation of Text (arxiv.org)

  • [2002.10375] Discriminative Adversarial Search for Abstractive Summarization (arxiv.org)

  • Energy-Based Reranking: Improving Neural Machine Translation Using Energy-Based Models – ACL Anthology

小结

根据深度学习的办法能够以数据为驱动进行端到端学习,学习到文本言语特征的低维密布向量表明。这样既能够缓解数据稀疏性问题,又能避免手工特征偏见问题。所以根据深度学习的办法具有很大的潜力。

大模型年代下的可控生成

尽管随着深度学习的开展可控文本生成取得了一定的开展,可是咱们要知道,深度学习的真实的崛起很大一部分是依赖于大数据集的。因而大数据集(尤其是有标签数据集)这一点对于监督学习和一些穿插范畴的文本生成还是一项应战。

17年transformer出来了,18年开端大型预练习模型(large-scale pretrained Language models,PLMs)开端开展起来了。这些预练习模型能够依托无标签数据进行练习,也便是借助transformer运用无监督办法学习,这样就能够运用很多无标签语料了。这些预练习模型的出现又解决了我刚才说到的问题。

因为运用了很多语料,大型预练习模型能够从数据中取得很多的语义和句法常识。大模型的强壮之处在于,咱们只需要对其进行微调就能够取得SOTA性能。当然现在还出现了zero-shot,你不需要微调也能够取得很好的成果。

大模型的开展对文本生成有什么影响?

在自然言语生成方面,预练习模型从很多语料中进行学习,因为语料集足够大,比方很多大模型练习都是从社交媒体爬上亿数据,因而预练习模型能够从很大程度上建模自然言语的散布,然后自然就能生成高质量文本。

可是预练习模型现已好强壮了,甚至不需要任何外部常识就能够生成具有特定约束的文本了,那咱们受控生成岂不是没有用武之地了?

不是的嗷。

预练习模型是根据神经网络的,神经网络是个黑盒,缺乏杰出的可解释性和可控性。因而从这时分开端,可控文本生成的热门转向为如何进步根据大型预练习模型的生成模型的可解释性和可控性。

我个人的一些观点

在触摸可控文本生成的过程中,我个人觉得在大型预练习模型方面还存在一个原因。

一文理清受控文本生成发展脉络

从17年Transformer出来以后,根据 Transformer 的预练习言语模型开展如火如荼。于是OpenAI那些人成功拿着Transformer做出了言语模型,那个时分GPT刚出来,惊为天人,在GPT之前,尽管图画范畴现已有用ImageNet做的预练习模型了,可是NLP范畴是没有像ImageNet那样大的有标签数据集的,因而迟迟没有出现预练习模型。可是GPT用无标签数据,做出来了预练习模型+微调的范式,所以说是惊为天人。

然后呢BERT就出来了,用更大的数据集更大的模型练习了言语模型。而且还在论文中写的“咱们做了两个模型,一个bert base,一个bert large,做bert base的原因。便是要和GPT比较。这话一出来你能忍吗。所以GPT啪就做了一个GPT-2。用更更大的数据集做出来一个更更大的言语模型。从那之后NLP范畴的预练习模型就有着越做越大的趋势。各家都开端搞大的预练习模型。不过这两年这个趋势现已收住了,我们发现大并不一定有用。开端专心于小而美的模型了。这儿的小不是指把模型越做越小,而是模型体量适中,可是能取得更好的作用。

接着说预练习模型。尽管现已意识到模型越来越大也不一定有用,可是对于一些研究人员来说,即使是体量适中的模型,他们连微调的算力也承担不起。如果冻住部分模型去微调一部分,又会十分影响最后的生成作用。在不改动预练习模型架构的情况下,一些人就会想着怎么去从外部操控文本生成。

所以在我看来,这是大模型年代下可控文本生成开展的一个重要原因。仅仅是个人理解嗷

之后我大概率会单开一篇文章写大模型视角下的可控文本生成。