作者介绍:谌明,浙江核新同花顺网络信息股份有限公司首席技能官,浙江省金融信息工程技能中心副主任,之江实验室金融大数据智能核算实验平台专家;曾掌管多个国家重点项目,总投入资金数亿元;宣布 SCI/EI 高水平学术论文 20 余篇,申请或授权发明专利 31 项;荣获我国 IT 年度人物出色 CTO 和出色工程师等奖项。
本文根据 谌明 教师在「澜舟NLP分享会」上的演讲整理。文内从事务视点介绍了大模型技能在同花顺事务上的运用以及未来探究的方向。
众所周知,大模型参数量大,通用才能强,综合功能好。但在同花顺事务场景中开始运用大模型的时分,发现用大模型的作用与传统办法距离不大,甚至有时分逊于原先传统的办法。所以开始在事务视点并不够重视,可是近期跟着大模型技能的快速发展,咱们也在逐步尝试将大模型在事务中落地,现在大模型在自然语言处理相关的事务里都获得了比传统模型更优的作用,下面详细介绍相关作业。
图 1
同花顺事务场景中的大模型
1. 问答
图 2
同花顺的问答事务主要是“同花顺问财”,主要场景在同花顺APP语音帮手、问财APP端、问财Web端等。事务办法是将用户输入的问句解析为 condition (比方股票标的、目标、时刻),然后从同花顺的后台海量的金融数据中取数并生成答复、表格等(如图 2 右侧所示)。
问句触及的范畴一般范畴包含常见的征信市场、股市、基金市场、债券,也会包含一些微观事务等。现在问财的用户每日问句数量大概在 1000 万左右,累计不同问句数量约 5 亿。用户量也很大,大约 300+万。这个问句量和用户量在问答体系中应该算十分大的。
图 3
问财对话体系在大模型的运用上有几个难点。
首要,它偏重金融事务常识,并且关于时效性要求很高。 这儿特别阐明一下“时效性”的问题。之前许多典型的问答体系一般会有这类常识问题,比方“国际最高的山是什么?”“我国的首都是哪里?”,但在问财里碰到的用户提问往往是“今日的股价”,而说到股价就触及到“今日股价的改变情况”;或许用户问“某个公司的业绩怎么”等等,这儿就触及到时刻维度,因为每个公司年报、半年报或季度报发布的时刻点不同,假如用户在前一天问,体系答复的是年报的成果;假如用户在今日问,体系或许就要答复季报的内容了,所以时效性问题十分重要,要确保用户获得最新的信息。
第二个难点是准确性问题。现在许多大模型的常识是通用的、持久不变的常识,但在问财体系里的常识在不同情况下会有一些改变,内含了一些金融逻辑。 假如呈现给用户回来的成果错误,就或许会导致很严重的问题,比方给用户回来了数据错误,就或许导致用户出资或许其他决议计划上的误差,形成产业损失。
总体来说,问答是比较难做的一个事务方向。因而咱们之前采取了比较保存策略,运用了一套需求很多人工的规矩体系。常常有人说,科研界和工业界之间有巨大的鸿沟,科研界满是深度学习,到了工业界满是用规矩来做。确真实咱们的事务模型里,规矩占比十分大,也是因为触及用户产业问题,技能上会比较保存。
下面详细介绍问答体系里大模型运用的经验和获得的成果。
图 4
图 4 右侧是问财体系的框架示目的,其间“通用语义辨认”之前是基于很多规矩做的,投入人力十分大,标注人员有几十人,做了十年左右。这套规矩体系准确率 90%,覆盖语义 2 万多,全体作用基本能满意事务需求。但它面对的问题是,1)这套体系积累了许多年才到达现在的作用,而长尾问题需求花十分长的时刻来处理。2)新的常识不断地融入涌入和迭代,全靠规矩来处理,会有十分大的问题。
所以从前两年开始咱们选用深度学习模型来做通用语义辨认。图 4 有一个通用语义辨认的小比方,输入问句是:“董事长持股大于 50 万”,解析时主干辨认需求辨认出“持有”和“大于”,并且要辨认出“大于”这个语义是包含“持有”的,即“(大于(持有))”,语义角色需求辨认出“持股”语义主体是“董事长”,“大于”的“客体”是“50 万”。
现在通用语义辨认方面大模型的作用已经慢慢显现了。前****两年咱们选用的是常规深度学习模型 TextCNN 准确率为 88%,后来和澜舟协作运用了孟子Mengzi 轻量化预练习模型,从图 4 左下角表格看,作用有显著的进步。 考虑到线上耗时问题,咱们运用的是参数较少的模型来做,比方孟子BERT-base准确率可以到达 94.16%,Electra-small 模型进步了 4% 是因为做了数据迭代,加了更多数据,进一步进步了作用,后续孟子BERT模型再迭代数据也会有更多进步。
而范畴语义辨认主要是针对特定的金融范畴的辨认,触及到 NER、linking 和一些谓词推理。 咱们现在对NER,用得比较多的是时刻、组织、地址、人名和数量 5 种。比方,输入是“马云在杭州参观了同花顺 2 次”,就需求将“今日”、“同花顺”、“杭州”、“马云”、“2 次”等实体辨认出来;而对部分实体词,需求linking到数据库中的规范词上,如“同花顺”需求 linking 到上市公司“浙江核新同花顺网络信息股份有限公司”,但“同花顺”或许会呈现在纸牌类游戏或许其他场景,因而需求在这个金融场景下,优化 linking。
图 5
以 NER 使命为例,咱们尝试用常规的深度模型 LSTM + CRF 串联的 F1 值只要 92% 左右,运用大模型之后,F1 值可以到达 96~97%,进步了4~5% 。假如运用更大规划的模型,作用还有更多进步空间,可是考虑到经济问题和服务耗时与功能问题,现在仍是用的参数量较小的 BERT-base 等。
2. 对话
图 6
上面的问答体系主要是取数问题,而对话体系主要触及多引擎的对话分发、跨引擎的多轮对话反常流程调度等对话办理技能,行业界一般做单一的使命型对话或许开放型对话,可是咱们的事务场景往往要求先做目的辨认和分发,再一起支持使命型和开发型的对话。
现在同花顺事务中的对话机器人分为云端版和企业版,分别满意 C 端和 B 端的客户需求。C 端主要是智能投顾的事务中的“问财帮手”,B 端主要是来电助理、数字人客服、智能外呼机器人等产品。
C 端的智能投顾事务经过对话技能,根据用户画像(出资目标及危险承受才能)供给出资主张。首要要拿到用户的背景常识,比方他个人的仓位盈亏,然后给出一些支撑压力位目标和出资主张。其间有一个“槽位”的概念, “槽位”是人工事前界说,咱们从出资视点界说了 16 种槽位,包含出资标的、意向操作、盈亏状况等等。所以当用户问“贵州茅台基本面怎么样?”,咱们首要要经过槽位抽取的模型辨认出“贵州茅台”是“出资标的”,“基本面”是“目的常识点”。现在咱们用了四层中文 BERT 模型,槽位可费用大概是 87% 左右。
B 端智能营销机器人是经过自动外呼的办法,向潜在客户进行产品营销,产品触及房地产、运营商、银行理产业品的营销,需求辨认用户回复的目的、并利用范畴常识进行合理回复。这儿需求运用目的辨认、追问辨认、答案排序等模型。以用户目的辨认为例,需求引进范畴常识,在用户接通电话今后,咱们会根据用户的目的做 “必定/拒绝/在忙/暂时不需求”等14 种使命分类,运用 3 层 RoBERTa 模型 ACC 准确率为 91%,运用 24 层 RoBERTa 可以进步两个点左右。
B 端智能客服机器人事务,咱们对接了我国移动的西安电信、陕西移动等运营商的客服机器人,同样是接听用户来电,先做用户的目的和语义辨认,但在客服事务中用户的语义会比较固定,咱们整理之后有几百种,所以咱们会先做语义类似语句匹配,再挑选匹配度高的语句进行回复。咱们对比了 2 层 BERT、2 层 RoBERTa、12 层 RoBERTa,F1 值分别是 84.01%、84.66%、87.68%,从本钱视点看,2 层 RoBERTa 更有用。
3. 信息抽取
信息抽取运用场景主要是常识图谱构建和金融数据库构建两个方面。
咱们事务中几乎所有数据组织办法都是以图谱为基础,金融常识图谱在风控、投研、投顾、银行理赔等等场景都十分重要,事务往往需求经过图谱整理一些联系,比方用户问询公司与法人联系以判别一些相关危险,然后做推理决议计划。所以金融常识图谱对咱们来说是十分大的课题,现在咱们已经做了微观经济图谱、A股大盘图谱、A 股个股事情图谱等。
图谱的数据来源依靠信息抽取,抽取的数据源包含研报、新闻资讯等,从研报和新闻资讯中自动抽取因果联系的三元组(因-影响-果) ,如图 7 所示。
图 7
这些因果联系的三元组抽取、事情论元抽取,都是经过大模型做的。早前运用的是 Char Embedding + LSTM,F1 不到 70%,运用咱们自己研制的 BERT 模型之后 F1 到达了 77%,运用澜舟的孟子Mengzi-Fin-base 模型之后 F1 进步到了 78.5%。
在常识图谱之上,咱们需求进一步优化的方向是金融数据库的构建。同花顺 iFind 金融数据库是业界最大的金融数据库之一,许多金融组织基于 iFind 数据库做投研、投顾。
图 8
图 8 右侧是一个详细的比方,一般来说上市公司的诉讼对金融出资有重要的危险提示作用。咱们需求从诉讼公告中抽取履行情况、违规事例阐明、对公司影响等信息。绿色的部分是违规事例阐明,还需求进一步从违规事例阐明里抽取诉讼详情,包含原告、被告、诉讼请求、违约金等信息。
对此咱们尝试了不同的模型(图 8 表格),常规深度模型 word2vec F1 值为 83.15%,咱们还尝试了 MacBERT、澜舟的孟子****Mengzi等模型,在优化增强(比方数据增强和 loss 优化)的条件下,澜舟孟子Mengzi 的 F1 值可以到达 96.67%。
4. 舆情监控
图 9
咱们有一个舆情体系叫“同花顺企洞悉”,ToC 版本叫“快查”,用户规模比较广,公司、个人、监管组织等都会用来做参阅,如政府会用于招商引资和精准营销。
舆情体系的一个重要的环节是“组织名称的辨认”,笼统出来是“长文本NER使命”(如上图所示),组织名称抽取的难点是除了规范名称还有许多简称、别名或许其他叫法,一开始咱们用 LSTM+ CRF 的作用欠安,F1 不到 70%,之后结合常识图谱+大模型,现在 F1 可以到达 86.4%,契合上线要求。
舆情监控事务中还有新闻资讯危险辨认场景,新闻资讯正面仍是负面或许会影响股价,怎么第一时刻告知出资人新闻的正面/负面是比较大的课题。
图 10
业界一般做法是人工辨认、打标签,这样的效率比较低,而新闻资讯的时效性比较高,咱们的做法是机器先打标签,然后人工辨认校验一次。这儿的较难的关键点是除了正负面标签之外,还需求对负面信息进一步剖析,提示危险在哪里。
比方图 10 的比方,判别为负面后,咱们需求做危险归类,“法人改变”到底是办理危险仍是方针危险导致的法人改变,这就需求进一步判别。之前咱们用常规划型来做的时分准确率最多到 59%,现在运用大模型,考虑到本文较长且功能要求较高,因而运用参数较少的 tinyBERT, 准确率是 69.45%,后续还需求做更多优化作业。
大模型的优化
很多研讨表明经过调整预练习使命、运用更多练习数据、运用范畴语料等办法,可以对原始的大规划预练习模型做进一步优化,到达更好的作用。比方经过添加练习语料、延长练习时刻、移除“next sentence”使命、动态 mask 等优化办法,可以获得比 BERT 作用更好的模型;在 BERT 基础上,经过运用范畴数据(DAPT)或使命数据(TAPT)进行第二阶段预练习,可以使模型在下游使命上体现得比 BERT更好。
1. Continue-Train
为了进一步进步大模型在实际事务中的作用,同花顺与澜舟科技协作,引进孟子Mengzi 模型中的技能 ,针对大模型进行 Continue-Train 练习,让模型更适用于金融相关的 NLP 使命 ,主要有以下几点优化:
- 词等级的MLM:运用中文分词器预分词,以词为单位进行 MLM,可以使模型更好的学习到整个词的语义表示,以及它跟上下文其他词之间的相关,从而增强模型的语义表征才能。这样可以使得预练习模型学习到更复杂的语法特征和常识;
- 改善预练习使命:经过添加 POS 序列标注使命,使得模型可以学会深层次的语言学信息;经过参加SOP(Sentence Order Prediction)使命,使得模型更好的学习语句之间的句对信息;
- 更高效地利用硬件:咱们全体用户量十分大,对话事务的日活到达百万级,资讯和研报抽取也是百万等级的,因而咱们关于功能十分关注。现在经过添加 Gradient Accumulation 降低了通讯本钱;一起引进 LAMB Optimizer,防止多机多卡环境下大 batch size 导致的收敛变差的问题。
图 11
从图 11 能看出,Continue-Train 方面实际优化作用错很不错,比方长文本阅读了解有 3% 左右的进步。在这方面,咱们也期望后续和澜舟科技及学术界一起探 索。
2. 模型轻量化
咱们大部分的服务其实本质是一个免费的流量型服务,为其他的事务导流,所以对资源的运用要求做到轻量化,进步功能、削减耗时。大模型的参数添加会带来作用的进步,可是在实际运用的经济视点考虑,宁可损失一些作用,尽量削减对资源的占用,所以咱们投入了很大的精力做“模型轻量化”作业。
图12
图 12 中有两个实际事务的比方,咱们对模型预测耗时有十分严厉的要求,因为响应时刻太慢会导致用户体会变差,一般来说会要求不能超过 100ms,有部分模型甚至要求耗时在 20ms~50ms。所以咱们用了常识蒸馏、剪枝、量化等常见的轻量化技能。比方“用户问句类似问生成”这个使命,咱们用到了常识蒸馏技能,将 10 层以上的大模型蒸馏成 3 层的小模型,功能上会有很大的进步,一起确保准确率不会有大幅下降的情况,GPT2-chinese-12 层单样本 CPU 生成耗时约为 1s,蒸馏为 3 层之后,耗时降为 100ms。
咱们在模型轻量化上还有一个探究方向是利用 past key values 加快推理。
图 13
如上图所示,对选用 DECODE 进行生成推断的模型,在预测下一个词时,需求履行 masked 注意力机制:每个 token 需求和其左边的所有 token 核算 attention,因而,关于长度为 n 的序列,需求做 n(n-1)/2 次向量的生成和核算。
图 14
如图 14 所示,因为下一个 token 向量的核算与其左边 token 的核算路径共同,因而可以保存左边 token 的核算成果并传入当时 token 的核算,这样每个 token只 需完结一次向量的核算,共计 n 次向量的生成和核算,从而节省很多时刻,并且这个加快办法不会带来其他影响,不会使目标下降。
这个技能现在主要运用在对话问句改写相关事务,包含用户的澄清问句改写。举个比方,用户问“最低点的股票是什么”,这儿面或许有许多种意思,比方“股价创新低的股票”、“股价即将涨的股票”,咱们需求对此做一个预测。在运用加快推理技能后,单样本 CPU生成耗时从 600ms 削减到了 100ms 左右。
总结
大模型技能在同花顺事务中的运用基本都有比较好的通用性,并且带来了比较好的功能进步,咱们也期望在医疗、法律、教育等范畴的子公司事务中推广,一起和澜舟科技以及学术界的教师们协作,把大模型用得更好,谢谢我们。
— END —