投研并重,这是腾讯现在快速布局大模型的战略。
量子位获悉,就在最近一轮清华系AI公司的融资中,腾讯现已出手下注,协助其间一家风口上的公司快速完结10亿级其他Pre-A+轮融资——这家公司叫深言科技(DeepLang AI),源流自清华大学自然言语处理实验室(THUNLP)。
深言还曾陷入美团老王的并购风闻,但现在为止,被本钱层面证明的最重要战略出资方,依然是刚刚浮出水面的腾讯,以及好未来——这也是好未来初次公开出资大模型公司。
但关于腾讯,深言只是大模型布局的提速。更早之前,腾讯被曝4000万美元重注出资了MiniMax,协助其快速晋升为大模型独角兽。
腾讯话事人马化腾现已表态,关于大模型这样的年代级浪潮不会冷眼旁观,但也不会急于求成搞半成品,会专注搞好研发。
但跟着接二(没有)连三的出资布局曝光,也能看出腾讯对大模型技能的决计和注重,以及关于大模型创投商场而言,这同样是个振奋的音讯,究竟此时此地的创投商场,满揣现金的腾讯出场,对不少VC都意味着退出保证和商场决心。
清华系AI初创公司深言科技?
深言科技成立于2022年3月,主要面向AI和NLP,方针是用AI及NLP技能,尤其是大模型技能,全流程服务信息处理。
创始人兼CEO岂凡超,是清华大学核算机科学与技能系2017级博士毕业生,本科时期就读于清华电子工程系。
在校时,他是THUNLP的一员。其主要研讨方向为NLP,曾在EMNLP等顶会宣告论文30多篇。
联合创始人兼COO李潇翔,清华电子工程系2017级博士。红杉中国合伙人张涵也是公司董事之一。
公司当时对外公开的产品,最有目共睹的是WantWords和WantQuotes。
WantWords,中文名叫反向词典,产品在2021年11月时一度走红微博,服务器被多次挤爆。
反向词典的开发要追溯到更前期,2019年,岂凡超就和同学协作研发了该产品,不仅支撑支撑中文及跨言语查询,还进行开源。
项目背面的中心AI,名为多通道逆向词典模型,相关论文中选过AAAI 2020。
而反向词典的项目辅导教师一栏中,就有岂凡超的导师,清华大学核算机科学与技能系教授、博士生导师,清华大学人工智能研讨院常务副院长孙茂松。
孙茂松和岂凡超的协作在后者毕业后依然持续。
上一年岂凡超博士毕业后,随即与多位清华硕博布景同学一道,从THUNLP孵化出深言科技。
现在担任深言科技首席科学家的,正是孙茂松。
一起,THUNLP实验室的反向词典和后续推出的据意查句(WantQuotes)等,也划归深言名下。
关于为深言科技生长供给土壤的THUNLP,这里再多说两句,它是国内第一个开展NLP研讨的科研单位,70年代就现已成立。
彼时的牵头人是国内NLP研讨范畴的趟路人黄昌宁,也是孙茂松的恩师。
反向词典另一名项目辅导教师刘知远同属THUNLP实验室,他是孙茂松的学生。
实验室此前推出的项目,颇受关注的主要有三:
- 中文诗篇主动生成系统九歌MixPoet,它练习过程中学习了80万首中国古诗;
- 言语表征模型ERNIE(和百度文心大模型同名),可与当时使命最优的BERT比美;
- 以中文为中心的预练习大模型清源CPM,是智源研讨院大模型悟道文源的前身。
上述项目研发过程时,岂凡超等人没有毕业,仍身处THUNLP。
投研并重的腾讯
此前业界撒播一种说法,“腾讯正在变成一家出资公司”。
这种说法背面的观念以为,看腾讯是否布局一个职业、一个范畴,往往是看它向哪个当地砸了钱,而不是自己的事务团队在做些什么。
对此腾讯当时的回应是,除了自主开辟多条事业线利用好这些流量以外,不中心的、不专业的项目都会经过出资,交给其他更合适的团队去做。
但在大模型范畴,腾讯显然没有由于对外出资就抛弃自己内部的动作,只不过不那么“着急”而已——
日前的腾讯2023股东大会上,被媒体描绘为“身形暴瘦,快认不出”的马化腾,分享了大模型的观念:
腾讯也在静心研发,并不急于把半成品拿出来展示……
我感觉现在有许多公司太急了,感觉是为了提振股价,我们一向不是这种风格。
此前他还在Q1财报电话会上回应腾讯在大模型方向上的“慢动作”:“关于工业革命来讲,早一个月把电灯泡拿出来在长的时刻跨度上来看是不那么重要的。”
尽管“不着急”,但腾讯自身在大模型范畴并非毫无动作。
最直接的音讯,就是腾讯内部打造了混元大模型,在今年4月初次对外披露。
而后又公布了新音讯,推出国内首个低成本、可落地的NLP万亿大模型。
并且,针对风闻中“腾讯针对类ChatGPT对话式产品成立‘混元助手’项目组”,腾讯给出回应:相关方向上已有布局,专项研讨也在有序推动。
据职场Bonus音讯,这个项目组的负责人大有来头,是腾讯史上最高职级拥有者,张正友(腾讯首位17级研讨员/杰出科学家)。
与此一起,跟着大模型群雄逐鹿,对算力的需求激增,腾讯还另辟蹊径,在算力层面着力。
依据腾讯Q1财报,腾讯云核算等ToB事务占据了收入的30%,一起,面向大模型练习,腾讯采用了最新自研服务器。
以练习自家大模型作用为例——万亿参数的混元NLP大模型练习。在平等数据集下,将练习时刻由50天缩短到11天。假如基于新一代集群,练习时刻将进一步缩短至4天。
技能层面的推动也在持续进行,3月宣告成果的信息检索范畴顶会WSDM(Web Search and Data Mining)宣告WSDM CUP 2023比赛成果。
来自腾讯研讨团队的在无偏排序学习和互联网查找预练习模型赛道上的两项使命中取得冠军,现在这两项成果代码和论文均已发布在GitHub。
二者中的后者与大模型息息相关,由于数据标示的质量关于模型的作用有着较为明显的影响。
比赛中,针对基于查找的预练习使命(Pre-training for Web Search),腾讯团队经过大模型练习、用户行为特征去噪等方法,在点击日志上进行基于查找排序的模型预练习,进而使模型有效地应用到下游相关性排序的检索使命。
现在,跟着对MiniMax和深言科技的先后押注,腾讯对大模型范畴的表里布局逐步开始拨云见日。
腾讯似乎在走与微软类似的路线,投研并重,即自主研发的一起,不忘对外出资商场看好或拥有技能布景的AI初创公司,一如微软对OpenAI的押注。
随之而起的还有创投圈四起的哀嚎:
大厂战投在大模型一出手就把估值拉贼高,跟不起了啊啊啊啊啊啊啊!!!
但另一方面,大厂战投出场,一起也意味着最有保证的退出机制来了。
究竟移动互联网年代抢夺“门票”的那几年,UC也好,91也罢,不都是这样吗?
—联络 作者—
—完—