对两种大言语模型 GPT4 和 Claude2 进行了具体比照, 从言语了解、文本生成、逻辑推理、编程、数学以及呈现错觉等多个维度进行测试, 发现 GPT4 的全体体现要略胜一筹, 尤其是在编程和防止错觉方面体现较好。

GPT4 是 OpenAI 开发的大言语模型,可以生成文章、代码并执行各种任务。Claude 是 Anthropic 创立的,也是比较领先的大言语模型,核心成员也是前 OpenAI 员工。最近 Claude 2 正式发布,声称在编写代码、分析文本、数学推理等方面的才能都得到了加强,咱们来运用下看看吧。

Claude2 的运用比较简略,直接拜访 claude.ai 即可,不过要保证拜访 anthropic.comclaude.ai 的 IP 地址是美国,信任这一点难不倒咱们吧。如果觉得有点难,可以参阅左耳朵耗子写的上网攻略。

大语言模型 Claude2 和 GPT4 实测对比
模型比照,图片来自 www.demandsage.com/chatgpt-vs-…

个人用下来,体验以及一些运用门槛的比照如下:

功用 ChatGPT Claude2
运用约束 地区约束,IP 风控,付出风控 地区约束
费用 免费 3.5, 付费 4 免费
言语了解 3.5 一般,4 很强 感觉和 4 差不多
错觉 3.5 比较简略呈现, 4 很少呈现 好于 3.5, 比 4 差
速度 3.5 很快,4 慢很多 好于 3.5, 比 4 差
流式输出 支撑 支撑
中文对话 支撑 支撑
插件功用 支撑 不支撑
代码解说器 支撑 不支撑
Token 上限 32K 200K
编程才能 4 很强 感觉和 3.5 差不多

下面将经过一些实践用例来展现这两个模型的才能。

言语才能

现在的大言语模型不只可以了解杂乱的语境和语义,还可以生成流畅的文本,甚至可以进行一些根本的推理。下面咱们经过几个比方,来比照下这两个模型在语义了解,文本生成和逻辑推理上的作用。

语义了解

TK 教主在微博上面曾经供给了几个比方,来阐明大言语模型的语义了解才能。TK 给的比方比较好,都是一些隐喻的描绘,或许普通人都很难了解,很考验语义了解才能,这儿咱们直接也用这两个比方了。

第一个是关于汤不热的隐喻,文本如下:

她们也学了煲汤的手工,但并不见效。谁都不知道是为什么。越是不知道为什么,她们就越恨三姨太。这天晚上,她们偷偷来到三姨太窗外,听到屋里传来一个声响:
“汤不热了吧? 我去给你热一下。”
老爷子眼中遽然闪出一道光辉,像年轻了三十岁。

TK 其时用的 Claude+ 能给出不错的解说,知道这个对话用汤不热来传达性的双关和隐喻。Claude2 优化了道德查看才能,直接识别出涉及一些敏感话题,然后不给答复了。相比之下,GPT4 就比较傻了,只了解字面意思。答复比照如下图:

大语言模型 Claude2 和 GPT4 实测对比
语义了解,Claude 了解双关和隐喻

再来看另一个比方,仍是一个隐喻,具体文本如下:

对微博上的佩奇们来说,今天是最漆黑的一天——她们的摩西杀了她们的加百列。

可以看到 GPT4 和 Claude2 的了解也都根本是可以的,如下图:

大语言模型 Claude2 和 GPT4 实测对比
语义了解,GPT4 略微好一点

文本生成

文本生成这儿,首要考虑让 AI 来续写小说。其实就目前最强大的 GPT4 来说,也不能写出风格一致,情节契合常识并且连贯的小说。AI 离替代人类作家,还有很远的路要走。不过这儿咱们仍是测验了一下,提示词如下:

你是一个优异的小说作家,现在预备写一篇盗窃相关的小说,最初部分如下:
在一个风高月黑的晚上。

帮我续写,字数大概在 300 字左右,文笔要诙谐一点,风格要是我国现代小说的风格。

大语言模型 Claude2 和 GPT4 实测对比
GPT4 和 Claude2 的小说创作

GPT4 老老实实地生成了小说,整体文笔和情节还说的曩昔,不过里面有些情节不太契合常识,比方熬夜打王者荣耀的太监。或许中文语料里,熬夜打王者荣耀呈现的次数太多了吧。Claude2 则供认自己在写小说方面不太拿手,然后给出了一些写作建议。

写小说有点难度,来试试一个比较常见的生成文本摘要。咱们挑选科幻小说《三体 3:死神永生》的章节:“播送纪元 7 年,程心” 的最初部分,作用如下:

大语言模型 Claude2 和 GPT4 实测对比
GPT4 和 Claude2 的文本摘要总结

GPT4 也可以再简略一点,生成如下:程心经过五年基因克隆和视网膜移植治疗,康复了视力,一起她的公司在近地轨迹太空建筑业中锋芒毕露,而艾 AA 虽经历移民困难,但未显岁月痕迹。整体看两个模型才能根本一样,没有显着优劣。

逻辑推理

除了上面的语义了解和文本生成,现在的大言语模型还可以进行一些逻辑推理。来看一个具体的比方,发问内容是

“我爸我妈成婚为什么没有邀请我”,GPT4 的答复考虑的逻辑就很完备,知道分成婚前出世和成婚后出世这两种状况了。Claude2 常识考虑了成婚前出世,别的多了一些道德引导,完好如下图:

大语言模型 Claude2 和 GPT4 实测对比
经典父母成婚请客问题

数学问题

数学其实一直是大模型的一个弱项,就算是 GPT4,数学推理核算才能也不行,需求依靠外部东西。下面用实例来比较两个模型在数学才能上的距离。

简略数学

先来看看简略的鸡兔同笼问题,咱们让 GPT4 和 Claude2 自己生成题目并处理,发现两者的才能根本一致,如下图所示:

大语言模型 Claude2 和 GPT4 实测对比
简略鸡兔同笼问题

微积分

再看一个略微杂乱的微积分的比方,咱们测验让 GPT4 和 Claude 解说微积分并给出具体的示例,提示词如下:

可以给我一个比方,教我什么是积分,以及怎么求积分吗

两个模型答复都还可以,GPT4 的解说略微明晰一点,如下图:

大语言模型 Claude2 和 GPT4 实测对比
微积分常识的答复

代码才能

平常用 GPT4 比较多,关于一些不是很杂乱的逻辑,GPT4 写的代码仍是很不错的。Claude2 的测评显示代码才能有了大的提高,下面经过几个示例来直观体验下。

最大公约数

发问内容都如下:

帮我用 python 写一个函数,用来核算两个数字的最大公约数。

GPT4 的代码用循环完成了欧几里得曲折相除法,给了完好的解说和代码,以及简略测试。而 Claude2 则给出了曲折相除法的递归完成和简略测试,对代码进行了简略解说。如下:

大语言模型 Claude2 和 GPT4 实测对比
最大公约数生成的代码

咱们知道 Python 中没有尾递归优化,所以递归深度太深的话,或许会栈溢出,抛出一个 RecursionError 过错。拿这一点来持续诘问 GPT4 和 Claude2,提示词分别如下:

GPT4: 上面用循环完成,为啥不用递归完成呢? python 中递归会有什么问题?
Claude2: 上面代码用到了递归,python 递归深度太深的话,会不会有问题呢?

GPT4 给出了递归版别的完成,然后提醒了 Python 中递归深度约束的原因,以及可以经过 sys.getrecursionlimit() 查看当时的递归深度约束。提醒到在处理大数据或是不确定数据规划的时分,循环结构一般是一个更安全、更牢靠的挑选。别的也说到在其他一些言语,如 Haskell 或 Scheme 中,由于它们运用尾递归优化,递归在这些言语中或许会被更广泛地运用。

Claude2 也知道 Python 递归深度约束,给出了循环版别的完成。别的,还说到在 Python 3.8 之后,可以运用 functools.lru_cache 做 memoization,防止重复核算。其实在最大公约数这儿,添加记忆话作用并不是很好,这儿的建议不是很合理。

完好的答复如下图:

大语言模型 Claude2 和 GPT4 实测对比
关于 Python 递归深度问题的诘问成果

解说代码

上面看到两个模型写代码才能有一点差异,接下来看看在对代码的了解上有没有显着差异。这儿咱们挑选的源代码是 OpenAI 的 python 库 openai-python 中 openai_response.py 的完成。发问的 Prompt 如下:

解说下面代码的作用,可以恰当总结归纳下。
(仿制的代码,这儿疏忽)

从回复上看,GPT4 的愈加具体点,对每个字段都有简略阐明,Claude2 则对整理的设计思路讲的比较具体些。如下图:

大语言模型 Claude2 和 GPT4 实测对比
openai_response.py 完成的解说

接着再具体问一些 Python 语法相关的常识点,@property-> Optional[str] 分别是什么意思。两个模型都答复对了,不过 GPT4 的答复显着会愈加具体,并且有必定的扩展。会答复在实践运转中,Python 不会强制查看类型注解的正确性,类型注解首要用于提示和文档,以及一些集成开发环境(IDE)和东西会运用类型注解来供给更好的代码完成和过错查看

大语言模型 Claude2 和 GPT4 实测对比
Python 完成技术细节的答复

人文历史

试着让这两个模型分别答复了下面的一些人文历史的发问:

介绍下我国历史上的名人武则天的生平。
建安七子都是谁,分别都有什么业绩。
诸葛亮是曹操的丞相,做了哪些大事呢?
怎么点评汉武帝?

建安七子的问题上,GPT4 和 Claude2 的答复都不太预备,其他问题,两个模型答复都还算契合事实。GPT4 的答复会愈加丰满立体,细节也会多一些。比方在诸葛亮的奉献上说到了:协助刘备立国,开展尽心竭力的治国理政,北伐中原,稳定国内,木牛流马,文化奉献等。而 Claude2 的答复就简略了很多,几乎没有说到诸葛亮的奉献。

GPT4 的总结点评也比较到位:诸葛亮是我国历史上闻名的政治家、军事家、文学家、书法家,被尊称为” 睿智的孔明” 或” 诸葛孔明”,在我国历史上享有极高的声威。如下图:

大语言模型 Claude2 和 GPT4 实测对比
历史问题的答复

在点评汉武帝的时分,两个模型根本也都给了正面和负面的点评,不过 Claude2 的答复有点搞笑,在说到成果的时分有下面一条:

employing 能臣如霍光等人, 改革弊政, 使汉朝政治清明。

遽然冒出了个英文,有点古怪,应该是模型的 bug 了。

错觉

大言语模型本质上是一个概率猜测,并不知道事实,因此会 “胡编乱造” 一些看起来很 “合理” 的内容。

在编程范畴,模型有时分会编造一些不存在的库或许函数,来完成一些编程任务。有时分也会给出一些虚假的信息,来测验答复某个问题。接下来咱们试着让 GPT4 和 Claude2 答复下面的一个编程问题:

帮我写一个程序验证 np.linalg.eig(np.random.rand(n, n)) 有没有主动在底层并行化,执行程序并告诉我成果。

两个模型都给出了还算合理的处理代码,差异在于 GPT4 直接答复自己是言语模型无法运转代码 (这儿没用 Code Interpreter),但是 Claude2 则呈现错觉,说已经在本地机器上运转,当 n=1000 时,核算时刻大约为 0.4 秒。如下图:

大语言模型 Claude2 和 GPT4 实测对比
GPT4 和 Claude2 的错觉

除了错觉这一点,比照答复质量,GPT4 仍是会好很多,给出的解说也会具体很多:numpy.linalg.eig 函数在底层完成上依靠于 BLAS(LAPACK) 库,这些库或许会根据安装和编译时的配置主动完成并行化。不过 Python 自身是无法控制这个进程的。此外,验证并行化的作用一般需求在多核 CPU 上运转,如果只有单核 CPU,那么并行化不会带来任何性能提高。

别的试了下发问:“用 notion 的 api 创立笔记,想上传本地的图片到笔记中,要如何做?”,这儿 GPT4 直接答复 Notion 的 API(到 2021 年 9 月停止)并未供给直接上传图片的功用,然后给的计划是上传到图片保管服务拿到链接,直接用链接。但是 Claude2 错觉比较严重,直接伪造了一个不存在的 API 接口,还供给了具体的方法。参阅 Notion API 文档, 上传文件需求发起一个 POST 请求到 /upload endpoint,在 body 中包含图片二进制数据以及 parent 目标信息。

其他范畴也会呈现一些错觉,比方捏造一些不存在的人或许工作,引用不存在的论文等。总之,在用的时分,必定可以验证 AI 的答复是否正确。

上面根本便是 GPT4 和 Claude2 的比照实测了,整体而言付费的 GPT4 仍是要好一些,Claude2 还有一点距离。