谷歌 Gemini 吊打 GPT-4？来看我的深度测评-六虎

万众期待的谷歌最新的大模型 Gemini Pro 发布了！之后还会上线更强壮的 Gemini Ultra 。

曾经听到新闻说 Claude 2 逾越 GPT-4，后来又听说谷歌 Bard 逾越 GPT-4。今天一觉醒来，又听说 GPT-4 被谷歌 Gemini 逾越了，不由得问自己：这是真的吗？

许多博主一看下面这个表格就说 Gemini 全面逾越了 GPT-4。究竟这是威望的 benchmark，数据都是实在的。

实践上，这个目标也能够做弊的。假如有意把用于评估大言语模型的的测试数据包含在大言语模型的练习数据时，它自然会体现得更出色。

就像考试相同。假如提早知道考试的内容包含在哪几本书里。然后考前拼命学习那几本书，终究的成果或许会比那些平时很用功，但并不知道考试内容的学生终究获得的成果要好。

当然，我并不是说谷歌在做弊，仅仅说不能单纯靠这些 benchmark 来判别大模型的好坏。

下面咱们来通过 Token 容量、长文本总结、知识更新、推理才干、数学才干、联网搜索才干、识图才干、中文支撑等 8 个目标，比照谷歌 Gemini Pro 和 GPT-4 的才干。

现在 Gemini Pro 免费，假如还没有用过，能够拜访这个网址：bard.google.com/。Gemini Pro 这个模型现已接入谷歌 Bard。确保你的谷歌账号的地址是漂亮国。

需求阐明的是，我在测试进程中用的是英文提示词，由于这样才干客观地进行比较。究竟模型首要的练习数据是英文。中文提示词出来的成果欠安，或许是模型的中文练习数据不够，并不代表模型自身的才干不强。

文末，我也会用中文提示词，测一下两个模型对中文的支撑力度。

Token 容量

Token 容量是评估大模型十分重要的一个目标。说的直白一些，便是你跟大模型进行一次完好的对话，大模型能包容多少单词。

比如让大模型总结一本书的内容，假如被允许包容的单词越多，那么咱们就能够总结更长的文本。

在跟大模型的多轮对话中，假如 Token 容量越大，那么它的记忆才干一般来说也会更强，更不会呈现到后来忘掉你之前跟它对话的内容。

测试下来，现在 Gemini Pro 的 Token 容量比 GPT-4 小许多。我让它把 11 月份 OpenAI 开发者大会上山姆奥特曼 45 分钟的 Youtube 字幕转化成一篇文章，成果在第 30 分钟的时分，就被截断了。

我提交的文本和它给出的呼应文本加起来是 5327 个单词。Gemini Pro 有个比较另类的功用，能够生成三个不同的呼应用你选择。加上另外两个呼应的话，总单词数大概在 6000 上下。

ChatGPT 4 就很夸张了。我把两个 45 分钟的 Youtube 字幕都放进去让它转化成文章，它豪不吃力。算下来到达 17408 个单词。实践还或许更高。

要知道 GPT-4 Turbo 的上下文窗口到达了惊人的 128k。

长文本总结

那么关于文本的总结才干，Gemini Pro 和 GPT-4 比较怎么呢？

如下图所示，我之前的恳求实践是要把 Youtube 字幕转化为一篇文章。但 Gemini Pro 仅仅把字幕内容进行了总结。

ChatGPT 4 转化的文章虽然也比较简短，但有头有尾，结构明晰。

再来看个比如。令我惊喜的是，Gemini Pro 竟然能够直接总结 Youtube 视频的内容。其实，想想也是应该的，究竟 Youtube 也是它的。总结的作用还行吧。

GPT-4 加上 VoxScript 插件，总结 Youtube 视频的作用比 Gemini Pro 作用要好。有头有尾，结构十分明晰。

从长文本中提取关键信息也十分检测大模型的才干。现在来看，Gemini Pro 仍是比不上 GPT-4 的。不过 Gemini 总结 Youtube 视频十分便利，这一点也许是 GPT-4 永久比不上的。究竟关于 OpenAI 来说，Youtube 不是自己的。

知识更新

11 月份 OpenAI 对 ChatGPT 的练习数据进行大幅更新，现在现已更新到 2023 年 4 月。并且尔后还会继续更新。我问 Gemini Pro 它的练习数据是什么时分更新的，它竟然告诉我是商业机密。

然后我问了它一个比较新的问题：怎么在 ChatGPT 中创建自己的 GPTs。它竟然答复得有模有样。但搞不清楚它是根据自己的练习数据仍是根据联网获得的数据。

如下图所示，GPT-4 的练习数据里边没有创建 GPTs 这部分的知识。

然后，我只能让它激活联网功用，答复这个问题。GPT-4 一联网，答复的比 Gemini Pro 还要详细精确。

推理才干

大模型想要帮用户出色地完结使命，就得要像人类相同的逻辑思维才干。先来看这样一个逻辑题：

杰克从 A 班升入 B 班，会导致两个班的均匀智商都进步吗？请解说原因或理由。

其实答案很简略，只需求考虑极点状况，托马斯松智商比A班均匀智商低，比B班均匀智商高。答案是必定的。

先看看 ChatGPT-4 的答复：

是的，杰克从 A 班转到 B 班会导致两个班级的均匀智商上升，这种状况一般被称为 “辛普森悖论”。当一种趋势呈现在几组不同的数据中，但当这些数据组合在一起时却消失或逆转时，就会呈现这种悖论。下面是这种状况下的工作原理：

搬迁前的 A 班：A 班有必定的均匀智商。当智商低于 A 班均匀值的杰克脱离后，A 班其他学生的均匀智商会上升，由于他们去掉了一个拉低均匀值的分数。

搬迁前的 B 班：B 班也有自己的均匀智商。当杰克加入 B 班时，假如他的智商高于 B 班的均匀智商，那么虽然他的智商低于 A 班的均匀智商，他也会进步 B 班的全体均匀智商。

因而，两个班级的均匀智商都或许由于杰克的转学而进步，这取决于杰克的相对智商和转学前后班级的均匀智商。这一成果似乎与直觉相反，由于它表明同一个人从一个班级转到另一个班级，能够同时进步两个班级的均匀智商，但这是两个班级均匀智商基线不同的成果。

GPT-4 答复得十分完美。

Gemini Pro 3 个答复都不正确，下面是较好的那个答复。

是的，杰克从 A 班升入 B 班会导致两个班级的均匀智商进步，但这是在特定状况下。

详细方法如下：

增加 B 班：

杰克的智商高于 B 班的均匀智商。

杰克的呈现能够鼓励 B 班的其他学生。看到一个成果优秀的学生能够鼓励其他人愈加努力，进步成果，从而使全班的均匀智商普遍进步。

进步 A 班：

杰克的脱离使 A 班少了一名成果优秀的学生，这会导致均匀智商略有下降。

不再与显着抢先的学生竞赛，他们或许会失去一些动力，从而导致均匀智商略有下降。

但是，A 班的这种下降或许会被两个要素抵消：

A 班剩余的学生或许会体验到 “竞赛削减效应”。杰克走后，他们或许会感到压力较小，并因自信心增强而体现得更好。

老师或许会调整教学方法，以更好地满意其他学生的需求。这或许会带来一个更专注的学习环境，并有或许进步均匀智商。

因而，杰克搬家对两个班级均匀智商的整体影响取决于多个要素，包括

杰克的智商与两个班的均匀智商之间的差异。两个班级的学习环境和教学风格。两个班其他学生的学习动机和反响。

在不知道这些要素的详细数值的状况下，咱们不或许断语两个班级的均匀智商会进步仍是下降。不过，这两种状况都有或许发生。

再来看一道知识类的标题。下面的知识类标题都来自于 Yejin Choi 在 TED 上的演讲。

我有一个 12 升的壶和一个 6 升的壶，我想丈量出 6 升。我该怎么做？

其实答案很简略，直接用那个 6 升的壶就能量出 6 升。

GPT 4 的脑回路有点长了。下面是它的答复：

我有一个 12 升的壶和一个 6 升的壶，我想丈量 6 升。我该怎么做？

要运用 12 升壶和 6 升壶精确丈量 6 升，能够按照以下步骤进行：

将 12 升水壶装满。

将 12 升水壶中的水倒入 6 升水壶中，直到 6 升水壶装满水。这样，12 升壶中就剩余 6 升水了。

现在，12 升壶中正好有 6 升水。

Gemini Pro 的脑回路更长：

下面介绍怎么运用 12 升和 6 升水壶丈量六升：

将 12 升水壶彻底装满。

将 12 升壶中的水倒入 6 升壶中，直到 6 升壶中的水满为止。这样 12 升水壶中就剩余 6 升水了。

清空 6 升壶。

将 12 升壶中的 6 升水倒入空的 6 升壶中。

再次装满 12 升水壶。

将 12 升水壶中的水倒入已有 6 升水的 6 升水壶中，直到 6 升水壶再次装满水。

因而，您现在现已成功地用两个水壶丈量了 6 升水。

再来看道知识题：

我把 5 件衣服放在阳光下晒干。它们花了 5 个小时才彻底晒干。晾晒 30 件衣服需求多长时刻？

大家都知道只需求 5 个小时就能够了。

来看看 Gemini Pro 的过错答复。它甚至还用 Python 代码计算了一下。

ChatGPT-4 则给出了正确的答复。

衣服晒干所需的时刻与衣服的数量并不成正比，条件是它们都处于相同的晾晒条件下（如阳光和空气流通）。假如您有满足的空间将 30 件衣服像晾晒 5 件衣服相同有效地摊开，并且气候条件保持不变，那么晒干一切 30 件衣服依然需求大约 5 个小时。关键要素在于它们是否都能承受同样多的阳光和空气流通。假如它们没有被有效地分散开来，那么由于某些衣服的露出量削减，或许需求更长的时刻。

在推理才干和知识判别上，Gemini Pro 和 GPT-4 仍是有差距的。

数学才干

数学才干也反映了大模型的推理才干。下面是一道不定积分的标题。

已知 : {0, . . . , 15} → {0, . . . , 15} 界说为 x mapstoleft{begin{array}{l}x+4 text { if } x<12 x-12 text { if } x geq 12end{array}right.

请证明是一个重排/置换(permutation) 并描述它的轨道(orbit)。

这道标题来历于加州大学伯克利分校。正确答案有四个：

Gemini Pro Draft 1 少了一个答案。

Gemini Pro Draft 2 多了一个答案。

Gemini Pro Draft 3 则彻底过错。GPT-4 则给出了正确答案。

联网搜索才干

Gemini 关于杂乱联网搜索使命的体现令我感到惊喜！我提交了这样一个恳求：

为一家虚构的消费品公司研究可继续包装解决方案。确认前 3 家可继续包装供货商，并供给一份关于其产品、价格和环境影响的报告。

Gemini Pro 十分完美地完结了这个使命。

它总结出的表格能够直接下载到谷歌表格里，十分便利。

比较之下，GPT-4 自带的联网功用无法完结这么杂乱的使命。搭配 WebPilot 插件的 GPT-4 的体现也不如 Gemini Pro。它并没有给出表格，并且价格的数据也没能获取。

Gemini 强壮的联网搜索功用，也许是 GPT-4 面对的巨大应战。谷歌搜索引擎加持 Gemini 的优势，得让微软和 OpenAI 好好想想怎么应对了。

识图才干

和 GPT-4 相同，Gemini Pro 也是一个多模态的模型。它的图画辨认才干也很强壮。下面的图片和问题来历于 The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) 这篇论文。

我把下面这张图扔给 Gemini Pro，并问它这张图有什么搞笑之处。

它是这么答复的：

卡通犀牛画乌龟的形象之所以有趣，是由于它出人意料、不协调。犀牛一般与艺术无缘，而乌龟一般与绘画主题无缘。此外，犀牛的画作十分简略，充溢童趣，与犀牛高大威猛的表面构成鲜明比照。

画面上方的文字 “你看到的国际便是你自己！”也增加了诙谐感。它暗示犀牛的画是它内心国际的描写，简略而充溢童趣。

下面是对画面诙谐的更详细解说：

出人意料犀牛一般与艺术无关，而乌龟一般与绘画主题无关。这种意外元素的并置是画面诙谐的首要来历之一。

不协调：犀牛的画十分简略，像个孩子，这与犀牛高大威猛的表面构成鲜明比照。这种不协调造成了一种荒诞感，这也是诙谐的另一个来历。

隐喻：画面顶部的文字 “你看到的国际便是你自己！”暗示犀牛的画是它自己内心国际的反映。这个隐喻能够有多种解说，但它终究增加了画面的诙谐感，暗示犀牛简略而稚拙的绘画反映了它对国际简略而稚拙的观点。

总之，卡通犀牛画乌龟的形象是一个诙谐的形象，由于它出人意料、不协调，并且具有隐喻性。

Gemini 错把犀牛角认成了乌龟。并且没有了解这幅画的内涵。

GPT-4 对这幅画的内容和内涵的了解都很精确：

这幅画的诙谐感来自于预期与描绘之间的反差。画面中，一只犀牛在画布上画了一幅自己的画。一般状况下，艺术家在画景色画时，你会期望画作反映的是实在的景色。但是，在这幅画中，犀牛画的是自画像，而不是眼前的美丽景色。标题 “你看到的国际便是你自己 “进一步强调了这一笑话，涵义咱们的感知是片面的，遭到咱们的身份和特征的影响。这幅画用这个成语发明了一种字面的诙谐解说：犀牛真的看到了自己，并把自己画进了景色中。

再来让它们辨认一张图。我让它们描述海报的内容和汉字。并且问它们美食来历于哪个城市。

这是 Gemini 的答复：

海报展现的是一碗武汉热干面，这是我国武汉市流行的街头小吃。这种面条由小麦粉制成，一般蘸着用芝麻酱、酱油、醋和辣椒油调制的咸酱食用。面条上一般会淋上猪肉末、腌菜和花生。

海报中心是一大碗面条，上面写着 “美中食华正宗特色小吃武汉热干面面条劲道中华好滋味”。海报右下角还有一个我国食品网的小徽标 “中华好滋味”。

总的来说，海报是宣扬武汉热干面的一种简略而有效的方法。大碗面和上下的文字明晰夺目，中华美食网的标识也增加了可信度。

答：海报展现的是一碗武汉热干面，这是我国武汉市的一种流行街头小吃。

下面是 GPT-4 的答复：

海报的中心画面是一碗面条，上面点缀着香草，或许还有肉末。布景是有纹路的灰色，周围散落着赤色的辣椒和一些绿色的草药，暗示这道菜或许是辛辣和新鲜的。在面条的图画上方，有一个赤色字体的大型汉字，一般与食品相关的广告都会运用这种字体，以引起人们的胃口和传统感。

夺目的赤色字体很或许传达了菜名或与之相关的标语。惋惜的是，我看不懂汉字，无法供给翻译或确认这道菜来自哪个城市。不过，这道菜自身很像 “热干面”，而 “热干面 “是我国湖北省武汉市的一道招牌菜。这道菜以芝麻酱和酱油调味而出名，具有共同的咸鲜风味。假如文中提到这道菜，那么它很或许与武汉有关。

总的来说，Gemini Pro 的识图才干比 GPT-4 略微差一点点，但是比 GPT-4 更能辨认中文。

中文的支撑力度

我找了一首许渊冲先生翻译的《天净沙秋思》的英文版，并让它们翻译并介绍作者。

下面是 Gemini 的答复：

Gemini 答复很精确，只不过从谷歌图片里抓了一些不太相关的图来配这几句诗，显得有点为难。

下面是 GPT-4 的答复：

从这个比如，大概能够判别出，Gemini 对中文愈加友爱。

总结

Gemini 比较于以前的 Bard 来说，确实提升巨大。此前，我基本很少用到 Bard。偶尔会拿他来识图。Gemini Pro 现在比较于 GPT-4 来说，仍是会差劲，不过许多方面都逾越了 GPT 3.5。

不知道之后的 Gemini Ultra 比较于 GPT-4 来说会怎样？我个人认为仍是会略逊于 GPT-4。

本文我还没有比照它们周围的生态。Gemini 现在基本没什么插件，还没有构成比较成熟的生态。但 ChatGPT 的生态日益成熟了。最近新增加的功用 GPTs 让每个人都能造 GPT 进步生产力。

关于用户来说，现在除了 ChatGPT, Claude 2 之外，又有了一个免费的 Gemini，真是太棒啦！

假如对 AI 感兴趣的话，能够加我微信vito_chat加入咱们的免费交流群，一起沟通学习。

欢迎拜访我的免费学习AI网站：

myaiforce.com.cn/

原文地址：

myaiforce.com.cn/gpt-4-vs-ge…

谷歌 Gemini 吊打 GPT-4？来看我的深度测评

Token 容量

长文本总结

知识更新

推理才干

数学才干

联网搜索才干

识图才干

中文的支撑力度

总结

相关文章

【ChatGPT｜AI 应用】ChatGPT + MindShow 快速制作 PPT

Swift实用小册24: AccessControl访问控制的使用

OneFlow v0.9.0正式发布

【论文阅读】AROPE：Arbitrary-Order Proximity Preserved Network Embedding

作者信息