咱们都知道,大言语模型(LLM)能够以一种无需模型微调的办法从少量示例中学习,这种办法被称为「上下文学习」(In-context Learning)。这种上下文学习现象现在只能在大模型上调查到。比方 GPT-4、Llama 等大模型在十分多的领域中都体现出了杰出的功能,但还是有很多场景受限于资源或许实时性要求较高,无法运用大模型。

那么,惯例巨细的模型是否具备这种才能呢?为了探索小模型的上下文学习才能,字节和华东师大的研究团队在场景文本辨认使命上进行了研究。
现在,在实际运用场景中,场景文本辨认面临着多种应战:不同的场景、文字排版、形变、光照变化、笔迹含糊、字体多样性等,因而很难练习一个能应对一切场景的一致的文本辨认模型。

一个直接的解决办法是收集相应的数据,然后在具体场景下对模型进行微调。可是这一过程需求重新练习模型,核算量很大,而且需求针对不同场景需求保存多个模型权重。假如文本辨认模型也能具备上下文学习才能,面对新的场景,只需求少量标注数据作为提示,就能提高在新场景上的功能,那么上面的问题就方便的解决。不过,场景文本辨认是一个资源敏感型使命,将大模型当作文本辨认器十分耗费资源,通过初步的试验,研究人员得到的调查是传统的大模型练习办法在场景文本辨认使命上并不适用。

为了解决这个问题,来自字节跳动和华东师大的研究团队提出了自进化文本辨认器,E2STR(Ego-Evolving Scene Text Recognizer),一个融合了上下文学习才能的惯例巨细的文本辨认器,无需微调即可快速习惯不同的文本辨认场景。

小模型怎么进行上下文学习?字节跳动 & 华东师大联合提出自进化文本辨认器

论文地址arxiv.org/pdf/2311.13…
E2STR装备了一种上下文练习和上下文推理模式,不仅在惯例数据集上达到了 SOTA 的水平,而且能够运用单一模型提高在各个场景中的辨认功能,完成对新场景的快速习惯,乃至超过了经过微调后专用模型的辨认功能。E2STR证明,惯例巨细的模型足以在文本辨认使命中完成有用的上下文学习才能。

办法

图 1 介绍了E2STR的练习和推理流程。

小模型怎么进行上下文学习?字节跳动 & 华东师大联合提出自进化文本辨认器

  1. 根底文本辨认练习
    根底文本辨认练习阶段选用自回归结构练习视觉编码器和言语解码器,目的为了获取文本辨认才能:

小模型怎么进行上下文学习?字节跳动 & 华东师大联合提出自进化文本辨认器

  1. 上下文练习
    上下文练习阶段E2STR将依据文中提出的上下文练习范式进行进一步练习。在这一阶段,E2STR会学习了解不相同本之间的联络,然后从上下文提示中获取推理才能。

小模型怎么进行上下文学习?字节跳动 & 华东师大联合提出自进化文本辨认器

如图 2 所示,这篇文章提出 ST 战略,在场景文本数据中进行随机的切割和转换,然后生成一组 “子样本”。子样本在视觉和言语方面都是内在联络的。这些内在联络的样本被拼接成一个序列,模型从这些语义丰富的序列中学习上下文知识,然后获取上下文学习的才能。这一阶段相同选用自回归结构进行练习:

小模型怎么进行上下文学习?字节跳动 & 华东师大联合提出自进化文本辨认器

  1. 上下文推理
    针对一个测验样本,该结构会从上下文提示池中挑选 N 个样本,这些样本在视觉隐空间与测验样本具有最高的类似度。具体来说,这篇文章通过对视觉 token 序列做均匀池化,核算出图像 embeddingI 。然后,从上下文池中挑选图像嵌入与 I 的余弦类似度最高的前 N 个样本,然后形成上下文提示。

小模型怎么进行上下文学习?字节跳动 & 华东师大联合提出自进化文本辨认器

上下文提示和测验样本拼接在一起送入模型,E2STR便会以一种无练习的办法从上下文提示中学得新知识,提高测验样本的辨认准确率。值得注意的是,上下文提示池只保留了视觉编码器输出的 token,使得上下文提示的挑选过程十分高效。此外,因为上下文提示池很小,而且E2STR不需求练习就能直接进行推理,因而额外的耗费也降到了最低限度。

试验

试验从三个视点进行:分别是传统文本辨认集、跨域场景辨认、困难样本批改。

  1. 传统数据集
    从练习会集随机抽取很少的样本(1000 个,练习集 0.025% 的样本数量)组成上下文提示池,在 12 个常见的场景文本辨认测验会集进行的测验,成果如下:

小模型怎么进行上下文学习?字节跳动 & 华东师大联合提出自进化文本辨认器

能够发现E2STR在辨认功能差不多已经饱满的传统数据集上依然有所提高,逾越了 SOTA 模型的体现。
2. 跨域场景
跨域场景下每个测验集仅提供 100 个域内练习样本,无练习和微调对比成果如下,E2STR乃至超过了 SOTA 办法的微调成果。

小模型怎么进行上下文学习?字节跳动 & 华东师大联合提出自进化文本辨认器

  1. 困难样本批改
    研究人员收集了一批困难样本,对这些样本提供了 10%~20% 的标注,对比E2STR的无需练习的上下文学习办法和 SOTA 办法的微调学习办法,成果如下:

小模型怎么进行上下文学习?字节跳动 & 华东师大联合提出自进化文本辨认器

能够发现,相比于微调办法,E2STR-ICL 大大降低了困难样本的错误率。

未来展望

E2STR证明了运用合适的练习和推理战略,小模型也能够拥有和 LLM 类似的 In-context Learning 的才能。在一些实时性要求比较强的使命中,运用小模型也能够对新场景进行快速的习惯。更重要的是,这种运用单一模型来完成对新场景快速习惯的办法使得构建一致高效的小模型更近了一步。