核算言语学世界会议 COLING 2022 是核算言语学和自然言语处理范畴的重要世界会议,由世界核算言语学委员会(International Committee on Computational Linguistics,ICCL)主办。
有道 AI 在机器翻译方向的研讨论文,被 COLING2022 以长文方式正式录用发表。
标题: Semantically Consistent Data Augmentation for Neural Machine Translation via Conditional Masked Language Model
作者: 程桥,黄瑾,段亦涛
论文全文请见文末。
研讨背景
神经机器翻译(NMT)一般需求大量的双语平行语料进行练习,在小数据的练习集上非常容易过拟合。高质量的双语平行语料比较难获取,一般人工标注语料需求较高的成本。数据增强办法是一种有用扩大数据规划的技能,而且在一些范畴取得了明显的作用。比如在视觉范畴,练习数据一般会运用诸如裁剪,翻转,弯曲或许色彩改换等办法来扩大。
尽管数据增强办法在视觉范畴成为了练习神经网络模型的一项根本的技能,但是在自然言语处理范畴,这项技能还没有得到很好的使用。
本论文首要研讨了神经机器翻译(NMT)中运用词替换进行数据增强的技能, 词替换技能经过替换现有的平行语料库句对中的词汇到达数据扩大的意图。在运用数据增强办法时,咱们观察到增强的数据样本如果保留了正确的标签信息,那么就可以有用扩大练习的数据规划,然后提高模型的作用。这个属性咱们称为语义共同性(semantic consistency)。
在神经机器翻译体系中,练习数据是以句对方式存在的,包含源端语句和方针端语句。语义共同性要求源端和方针端的语句在各自的言语中都是流利的且语法正确的,一起还要求方针端语句应该是源端语句的高质量翻译。
现有的词替换办法一般是对源端和方针端语句中的单词进行交流、删除或随机的替换。因为自然言语处理的离散性,这些改换不能保持语义的共同性,一般它们可能会削弱双语语句的流畅性或许破坏句对之间的关联性。
咱们可以看一个案例:
这个比如是英德平行语料库中的一对语句和一些对英文端进行词替换得到的语句。Case 1 和 2 都是有问题的替换方式,前者尽管与替换的词保持了相同的意思,但在语法上是不正确的,后者尽管语法正确,但和德语语句不是互译的联系了。Case 3因为是一个语法正确,语义也保持共同,所以是一个好的增强样本。
在生成增强数据的过程中,运用上下文和标签信息可以完成更好的增强作用。咱们引入了条件掩码言语模型(CMLM) 用于机器翻译的数据增强。掩码言语模型可以一起运用句内双向上下文信息,而 CMLM 是它的一个增强版别,它可以运用更多的标签信息。咱们展示了 CMLM 可以经过迫使源端和方针端在进行词替换时保持语义共同性,然后可以生成更好的替换词散布。
此外,为了增强多样性,咱们结合了软性数据增强(Soft Cotextual Data Augmentation)办法,这个办法运用词表上的一个散布来替换详细的词。
论文中提出的办法在4个不同规划的数据集上进行了试验,成果都标明该办法相比于之前的词替换技能更有用,翻译质量更高。
办法介绍
咱们的方针是改善机器翻译练习中的数据增强办法,使得在增强的过程中,可以保留源句和方针句的语义以及它们之间的跨言语互译联系。
为到达这个方针,咱们引入了条件掩码言语模型(CMLM) , 它可以生成上下文相关的替换词散布,从中咱们可以选择给定单词最好的替代词。CMLM模型是MLM的一个变种方式,它在猜测掩码时会结合标签信息。
在机器翻译场景中,CMLM遵从两点要求:
- 猜测掩码时会一起以源端和方针端为条件;
- 在CMLM练习时,只会掩蔽源端的部分词或方针端的部分词,但不会一起掩蔽源端和方针端。
实际练习中可以拼接源端和方针端语句,然后随机掩蔽15%的源端单词,练习一个CMLM去猜测掩蔽的源端单词。相同,也可以随机掩蔽15%的方针端单词,练习一个的CMLM根据拼接的双语语句去猜测掩蔽的方针端单词。这种依靠双语信息猜测某一端掩蔽词的特点是运用CMLM猜测词做数据增强可以保持语义共同性的要害。
当运用上述办法练习好CMLM模型后,就可以用来扩大练习用的双语语料了。对于练习的双语语料,掩蔽源端或方针端的某些词,运用CMLM猜测出可能候选词的散布,然后在散布中采样某个词替换掉对应方位的词。
因为 CMLM 一起结合了源端和方针端的信息,模型猜测的词能很好地保持双语的语义共同性。这种直接替换的办法是比较费时的,如果需求减少采样的方差,就需求生成足够多的候选。为了提高这里的效率,咱们结合了软性数据增强的办法。
软性数据增强不采样详细的词,而是根据猜测的散布核算在词表上的词向量希望,运用这种软性的词向量替换实在的词向量表示。软性的词向量表示这样核算:
在神经机器翻译练习中运用 CMLM 做数据增强架构如下图所示。这里有两个独立的 CMLM,分别用来增强源端和方针端。咱们运用预练习的多言语 BERT 初始化 CMLM,运用前述办法进行微调。在翻译模型练习过程中,CMLM 部分参数固定不动,按必定概率运用 CMLM 生成的软性词向量替换实在的词向量参加机器翻译模型的练习。咱们探究了不同替换概率对翻译模型质量的影响。
试验及成果
为了验证论文提出的办法的作用,咱们在三个较小规划的数据集:包含IWSLT2014 德语、西班牙语、希伯来语翻译到英语,及一个较大规划的数据集:WMT14 英语翻译到德语,进行了试验验证。
咱们将此办法与其他几种数据增强办法进行了比较,包含一些规矩的词替换办法,例如单词交流、删除、随机替换,以及两个运用言语模型进行替换的办法。咱们还将论文中的办法与语句级增强办法 mixSeq 进行了比较。咱们的基线体系是没有运用任何数据增强的体系。
为了比照,咱们运用CMLM进行了两组数据增强试验:第一组运用前文描绘的软性词向量替换的办法,第二种运用传统的采样替换办法,替换词根据CMLM的猜测采样发生。
两种办法都一起使用到源端和方针端,而且运用相同的掩码概率gamma = 0.25,这是咱们发现的最优配置。
试验成果如下图所示:
从表格中的成果可以看出,两种运用CMLM做数据增强的办法都明显优于基线体系, 其间CMLM软性词向量增强的办法在所有任务上都取得了最优的成果。特别是在 WMT 英译德上取得了 1.9 BLEU 的提高。
除了在公共语料库上的试验,咱们还将该办法使用到有道翻译的线上体系中。 有道线上翻译体系(fanyi.youdao.com)运用近亿句对语料练习,模型巨细接近5亿参数量,并运用了多种优化办法,在多个测验集上优于其他产品。在这样领先的商业机器翻译体系上,咱们的办法也取得了明显的提高作用。
实际使用
自2007年推出网易有道词典以来,有道 AI 团队继续多年在机器翻译技能上发力。2017年推出有道神经网络翻译引擎(YNMT),使得翻译质量得到质的飞跃。
除网易有道词典之外,有道神经网络翻译技能现已使用于有道翻译官、有道少儿词典、U-Dictionary 等丰富的学习类东西 App 傍边,为不同需求的用户提供高质量、可信赖的翻译和言语学习服务。
除软件外,YNMT 技能也已使用于有道词典笔、有道智能学习灯、有道 AI 学习机、有道听力宝 等多款智能学习硬件中,并针对硬件产品进行了高性能、低功耗的定制化规划,完成了「 毫秒级点查 」、「 0.5s 指尖查词」等中心功能。
根据自研的 AI 中心技能,结合对学习场景的深刻理解,网易有道现已开辟学习硬件与东西、素养类课程、大学与职场课程、教育信息化等多种业务,致力于协助用户完成高效学习。未来,有道 AI 会继续进行前沿技能的前瞻性研讨,并推动其在产品和实在场景中的落地。
论文全文请见: ([2209.10875] Semantically Consistent Data Augmentation for Neural Machine Translation via Conditional Masked Language Model (arxiv.org))