谷歌PaLM 2细节曝光：3.6万亿token，3400亿参数-六虎

金磊发自凹非寺量子位 | 大众号 QbitAI

谷歌最新大言语模型PaLM 2，更细节内幕被曝出来了！

据CNBC爆料，练习它所用到的token数量多达3.6万亿。

这是什么概念？

要知道，在上一年谷歌发布PaLM时，练习token的数量也仅为7800亿。

四舍五入算下来，PaLM 2足足是它前身的近5倍！

（token实质是字符串，是练习大言语模型的要害，能够教会模型猜测序列中呈现的下一个单词。）

不仅如此，当时谷歌发布PaLM 2时，仅仅说到“新模型比曾经的LLM更小”。

而内部文件则是将具体数值爆料了出来——3400亿个参数（初代PaLM是5400亿）。

这表明，谷歌通过技术“buff加持”，在参数量更小的状况下，让模型能够更高效地完成更复杂的使命。

尽管在已经保持了数月的AIGC大战中，谷歌一直“三军出击”，但关于练习数据的巨细或其他细节信息，却是遮遮掩掩的态度。

而跟着这次内部文档的曝光，也让咱们对谷歌最in大言语模型有了进一步的了解。

PaLM 2要在广告上发力了

关于谷歌上周发布PaLM 2的才能，咱们就不再详细的赘述（可点击此处了解详情），简单总结下来便是：

接受了100多种言语的练习，在言语理解、生成和翻译上的才能更强，更加擅长常识推理、数学逻辑剖析。
数据集中有海量论文和网页，其中包含非常多数学表达式。
支撑20种编程言语，如Python、JavaScript等常用言语。
推出了四种不同size：“壁虎”版、“水獭”版、“野牛”版和“独角兽”版（规模顺次增大）。

至于运用方面，谷歌在发布会中就已经介绍说有超过25个产品和运用接入了PaLM 2的才能。

具体表现形式是Duet AI，能够理解为对标微软365 Copilot的一款产品；在现场也展示了在Gmail、Google Docs、Google Sheets中运用的才能。

而现在，CNBC从谷歌内部文件中挖出了其在PaLM 2运用的更多方案——进军广告界。

依据这份内部文件，谷歌内部的某些团队现在方案运用PaLM 2驱动的工具，答应广告商生成自己的媒体财物，并为YouTube创作者引荐视频。

谷歌也一直在为YouTube的青少年内容测验PaLM 2，比方标题和描绘。

谷歌在阅历了近20年的快速发展后，现在已然陷入了多季度收入增长缓慢的“泥潭”。

也由于全球经济大环境等原因，广告商们也一直在在线营销预算中挣扎。

具体到谷歌，本年大多数职业的付费搜索广告转化率都有所下降。

而这份内部文件所透露出来的信号，便是谷歌期望捉住AIGC这根救命稻草，期望运用生成式AI产品来添加支出，用来添加收入并提高利润率。

据文件显示，AI驱动的客户支撑策略或许会在100多种谷歌产品上运行，包含Google Play商铺、Gmail、Android搜索和地图等。

练习数据缺少透明度，越发被热议

不过话说回来，包含谷歌在内，纵观大多数大言语模型玩家，一个较为明显的现象便是：

对模型、数据等细节保密。

这也是CNBC直接挑明的一个观点。

尽管许多公司都表示，这是由于业务竞赛所导致的，但研讨界却不这么以为。

在他们看来，跟着AIGC大战的继续升温，模型、数据等需求更高的透明度。

而与之相关的论题热度也是越发的激烈。

例如谷歌Research高档科学家El Mahdi El Mhamdi便于二月份辞职，此举背后的原因，正是由于他觉得公司缺少透明度。

无独有偶，就在OpenAI CEO Sam Altman参加听证会期间，便“反向”自动提出立法者进行监管：

假如这项技术出了问题，那就或许会是大问题……咱们期望合作，防止这种状况发生。

到发稿，关于CNBC所爆料的诸多内容，谷歌方面暂未做出回应。

参阅链接：
[1]www.cnbc.com/2023/05/16/…
[2]www.cnbc.com/2023/05/17/…
[3]ai.google/discover/pa…

—完—

谷歌PaLM 2细节曝光：3.6万亿token，3400亿参数

金磊 发自 凹非寺 量子位 | 大众号 QbitAI

PaLM 2要在广告上发力了

练习数据缺少透明度，越发被热议

相关文章

LeetCode 240. 搜索二维矩阵 II 【c++/java详细题解】

浅谈在 vscode 中调试 typescript 的小坑

MYSQL中的14个神仙功能，惊艳到我了！！！

基于pytorch搭建VGGNet神经网络用于花类识别

作者信息

金磊发自凹非寺量子位 | 大众号 QbitAI