夕小瑶科技说 共享
来历 | 机器之心
此次,Claude 2 除了一大波才能上的晋级,更重要的是大家都能够用了。
今天,那个被很多网友称为「ChatGPT 最强竞品」的人工智能体系 Claude 迎来了版别大更新。
Claude 2 正式发布!
据介绍,Claude 2 在编写代码、剖析文本、数学推理等方面的才能得到加强,并且能够发生更长的响应。
更重要的是,用户能够在新的 beta 网站上免费试用,并且 Claude 2 商用 API 的价格与 1.3 版别相同。
机器之心在此前的文章中多次介绍过 Claude,它是由 OpenAI 离职人员创建的 Anthropic 公司打造的。在 ChatGPT 发布两个月后,该公司就迅速开发出了 Claude,能够完结摘要总结、搜索、帮忙创作、问答、编码等使命。
之后继续晋级,五月份通过 100K Context Windows 将 Claude 的上下文窗口从 9k token 扩展到了 100k。
现在总算迎来了大版别更新。Anthropic 表明,Claude 2 根据此前从用户那里取得的反应主张进行改进。
接下来看各方面才能细节。
Claude 2 在哪些方面得到了加强?
总的来说,Claude 2 重视进步以下才能:
- Anthropic 致力于进步 Claude 作为编码助理的才能,Claude 2 在编码基准和人类反应评价方面性能明显提高。
- 长上下文(long-context)模型对于处理长文档、少数 prompt 以及使用杂乱指令和规范进行控制特别有用。Claude 的上下文窗口从 9K token 扩展到了 100K token(Claude 2 现已扩展到 200K token,但目前发布版别仅支撑 100K token)。
- 以前的模型经过训练能够编写适当短的答复,但许多用户要求更长的输出。Claude 2 经过训练,能够生成最多 4000 个 token 的连接文档,适当于大约 3000 个单词。
- Claude 通常用于将长而杂乱的自然言语文档转换为结构化数据格局。Claude 2 经过训练,能够更好地生成 JSON、XML、YAML、代码和 Markdown 格局的正确输出。
- 尽管 Claude 的训练数据依然主要是英语,但 Claude 2 的训练数据中非英语数据份额现已明显增加。
- Claude 2 的训练数据包含 2022 年和 2023 年头更新的数据。这意味着它知道最近发生的事件,但它依然可能会发生混杂。
该研讨进行了一系列评价试验来测验 Claude 2 的性能水平,包含对齐评价和才能评价两部分。
在模型对齐方面,该研讨针对大模型的三个要害要求做了具体评价,包含:遵循指令、生成内容有用(helpfulness);生成内容无害(harmlessness);生成内容准确、实在(honesty)。
人类反应评价
大模型在生成过程中应该遵循人类供给的指令,这将让生成成果符合要求、实际有用。针对这一点,该研讨对 Claude 2、Claude 1.3 和 Claude Instant 1.1 进行了试验评价,并使用经典的对弈水平评价目标 ——Elo 分数,几个模型的评价成果如下图 1 所示:
成见评价
Bias Benchmark for QA(BBQ)是用于评价模型对人群成见的常用基准。该研讨在 BBQ 基准上进行试验评价,几种模型的试验成果如下图 2 所示:
下图 3 显现了在消除歧义的语境下几种模型答复 BBQ 基准中问题的准确性。值得注意的是,Claude 模型的准确率会比 Helpful-Only 模型低是因为模型会拒绝答复一些存在成见的问题。
事实性评价
大模型有时会生成虚假混乱的信息,因而测验模型生成内容的事实性十分重要。TruthfulQA 是一个用于评价言语模型在对抗性环境中输出的准确性和实在性的基准,几种模型的测验成果如下图 4 所示:
总的来说,Claude 2 在 HHH(在有用性(helpfulness)、无害性(harmlessness)、事实性(honesty)、)评价上的整体体现如下图 6 所示:
在才能评价方面,该研讨针对多言语翻译使命、上下文窗口、规范基准评价、资格水平考试几个方面对 Claude 2 打开评价试验。
多言语翻译
该研讨挑选包括 200 多种言语的翻译基准 Flores 200 来评价 Claude 2 的多言语翻译才能,其间包含低资源言语。Claude 2、Claude 1.3 和 Claude Instant 1.1 的评价成果如下图 7 所示:
上下文窗口
本年早些时候,研讨团队将 Claude 的上下文窗口从 9K token 扩展到了 100K token,现在 Claude 2 进一步扩展了上下文窗口, 到达 200K token,适当于约 150000 个单词。
为了证明 Claude 2 会实际使用完好的上下文,该研讨测量了每个 token 位置的损失,平均超过 1000 个长文档,如下图 8 所示:
不过,研讨团队表明目前发布的版别仅支撑 100K token 的上下文窗口,完好的上下文窗口将会集成到他们的产品中。
规范基准评价
该研讨在几个规范基准上评价测验了 Claude 2、Claude Instant 1.1 和 Claude 1.3,包含用于 python 函数合成的 Codex HumanEval、用于解决小学数学问题的 GSM8k、用于多学科问答的 MMLU、针对长故事问答的 QuALITY、用于科学问题的 ARC-Challenge、用于阅览了解的 TriviaQA 和用于中学水平阅览了解与推理的 RACE-H,具体的评价成果如下表所示:
值得注意的是,Claude 2 生成代码的才能有了明显的提高,在 Codex HumanEval 上的得分从 56% 上升到 71.2%。
资格水平考试
该研讨还用几个常见资格水平考试的题目测验了 Claude 2 的实际才能。
首要,Claude 2 在美国律师资格考试(Bar Exam)的多项挑选题测验中得分率为 76.5%,高于 Claude 1.3 的 73.0%。
其次,研讨团队还用美国研讨生入学考试(GRE)测验了 Claude 2 的才能水平,Claude 2 在 GRE 阅览和写作考试中的得分高于 90%,在定量推理方面与到达了参加 GRE 考试的考生的中位数水平。
最终,该研讨还在美国医师执照考试(USMLE)题目上测验了 Claude 2:
Anthropic 表明,人工智能写作平台 Jasper 和代码导航工具 Sourcegraph 等公司已开端将 Claude 2 归入其运营中。
官方示例及试用体会
咱们先看 Anthropic 供给的一些官方示例。
1、编码才能:为静态地图增加交互式数据。
2、文本处理才能:总结文档、输出表格。这里 Claude 2 用上了 100K token 文本处理功用,能够在 prompt 窗口上传几百页的文档。
除了以上,机器之心也尝试了一些文本剖析、数学推理和编写代码方面的示例。
试用地址:
claude.ai
gpt4试用地址
gpt4test.com
首要让Claude 2 以目录形式总结一下「Claude 2 技能文档」 的要点,总结得十分具体,对咱们写这篇文章有帮助。
再来两道数学推理题,Claude 2 只用一次就能搞定。
最终测一些代码题,生成、检查和补全代码都不在话下。
不过,Claude 2 仍不具有生成图片的多模态才能。
大模型 AI 全栈手册
行业首份AI全栈手册开放下载啦!!
长达3000页,包括大言语模型技能发展、AIGC技能最新动向和应用、深度学习技能等AI方向。微信大众号重视“夕小瑶科技说”,回复“789”下载资料
参考资料
[1]https://www.anthropic.com/index/claude-2[2]https://www-files.anthropic.com/production/images/Model-Card-Claude-2.pdf
[3]https://arstechnica.com/information-technology/2023/07/new-chatgpt-rival-claude-2-launches-for-open-beta-testing/