重磅！OpenAI 在 ChatGPT 内推出语言和图像功能-六虎

AI 开端在 ChatGPT 中推出新的语音和图画功用。它们供给了一种新的、更直观的界面类型，答使用户进行语音对话或向 ChatGPT 展现正在议论的内容。

语音和图画为用户在生活中运用 ChatGPT 供给了更多方式。旅行时，拍下地标性建筑的相片，然后就它的有趣之处进行实时对话。当您在家时，拍下冰箱和储藏室的相片，找出晚餐的菜谱（并提出后续问题，一步步了解菜谱）。晚饭后，帮孩子做一道数学题，拍下相片，圈出问题集，让孩子与您分享提示。

OpenAI 将在未来两周内向 Plus 和企业用户推出 ChatGPT 中的语音和图画功用。语音功用将在 iOS 和 Android 上推出（在设置中挑选参加），图画功用将在所有平台上推出。

Rectangle Speak with ChatGPT and have it talk back

现在，用户能够运用语音与您的帮手进行来回对话。在旅途中与它对话，为家人要求一个睡前故事，或许解决餐桌上的争辩。

与 ChatGPT 对话，让它回话（Rectangle Speak with ChatGPT and have it talk back）

运用语音与帮手进行多轮对话。

要开端运用语音，请前往手机使用上的设置 → 新功用，然后挑选语音对话。然后，点击主屏幕右上角的耳机按钮，从五种不同的语音中挑选自己喜欢的语音。

新的语音功用由一个新的文本到语音模型供给支撑，能够仅通过文本和几秒钟的语音样本生成相似人类的音频。OpenAI 与专业配音演员协作创作了每种语音。OpenAI 还运用 Whisper（OpenAI 的开源语音识别体系）将用户说的话转录成文本。

Listen to voice samples

挑选文本

下面是示例：

Once in a tranquil woodland, there was a fluffy mama cat named Lila. One sunny day, she cuddled with her playful kitten, Milo, under the shade of an old oak tree.

“Milo,” Lila began, her voice soft and gentle, “you’re going to have a new playmate soon.”

Milo’s ears perked up, curious. “A new playmate?”

Lila purred, “Yes, a baby sister.”

Milo’s eyes widened with excitement. “A sister? Will she chase tails like I do?”

Lila chuckled. “Oh, she’ll have her own quirks. You’ll teach her, won’t you?”

Milo nodded eagerly, already dreaming of the adventures they’d share.

粗心 (从前，在一片安静的树林里，有一只毛茸茸的母猫，名叫莱拉。在一个阳光明媚的日子里，她和调皮的小猫米洛偎依在一棵老橡树的树荫下。

“米洛，” 莱拉开端说话了，声响轻柔而温和，”你很快就会有一个新玩伴了。”

米洛的耳朵竖了起来，很猎奇。”新玩伴？”

莱拉咕噜着说：”是的，一个小妹妹。”

米洛兴奋地睁大眼睛。”妹妹？她会像我相同追尾巴吗？”

莱拉笑着说。”哦，她会有自己的古怪。你会教她的，对吗？”

米洛急迫地址允许，现已开端憧憬他们将共同阅历的冒险了。

Select voice

Juniper

Chat about images

用户现在能够向 ChatGPT 展现一张或多张图片。能够解决烤架无法发动的问题，查看冰箱里的食物以计划用餐，或许剖析复杂的图表以获取与作业相关的数据。要聚焦于图画的特定部分，您能够运用 OpenAI 移动使用程序中的绘图东西。

图画谈天 (Chat about images)

向 ChatGPT 展现一张或多张图片。

要开端谈天，请点击相片按钮捕捉或挑选图片。如果您运用的是 iOS 或 Android 体系，请先轻点加号按钮。您还能够评论多张图片，或运用 OpenAI 的绘图东西来引导您的帮手。

图画了解由多模态 GPT-3.5 和 GPT-4 支撑。这些模型将言语推理才能使用于各种图画，如相片、截图以及包含文字和图画的文档。

OpenAI 正在逐渐布置图画和语音功用

OpenAI 的方针是构建安全、有利的 AGI。OpenAI 相信，逐渐供给东西，让 OpenAi 能够随着时刻的推移不断改进和完善危险缓解办法，同时也让我们为未来更强大的体系做好准备。在触及语音和视觉的高级模型中，这一策略变得更加重要。

语音

新的语音技能 — 只需几秒钟的实在语音就能制作出逼真的合成语音 — 为许多创造性和无障碍使用打开了大门。但是，这些功用也带来了新的危险，例如恶意行为者有或许假充大众人物或实施诈骗。

这便是为什么 OpenAi 要将这项技能用于语音谈天这一特别使用事例。语音谈天是由 OpenAI 直接协作的配音演员创立的。OpenAi 还与其他公司开展了相似的协作。例如，Spotify 正在将这项技能的力量用于其语音翻译功用的试点，该功用能够协助播客将播客翻译成其他言语，用播客自己的声响来讲述故事，然后扩展播客的影响力。

图画输入

基于视觉的模型也带来了新的挑战，从对人的错觉到在高危险范畴依靠模型对图画的解释，不胜枚举。在进行更广泛的布置之前，OpenA 与极端主义和科学才能等范畴的红队测验专家人以及不同的测验者一起对模型进行了测验。OpenAI 的研讨使 OpenAi 能够在一些要害细节上坚持一致，以完成负责任 AI 的使用。

让视觉既有用又安全

与 ChatGPT 的其他功用相同，视觉功用也是为您的日常生活供给协助。只有当它能看到用户所看到的东西时，才能发挥最大效果。

OpenA 与盲人和低视力者的免费手机使用程序 Be My Eyes 协作，了解其用处和局限性，并从中直接借鉴了这一办法。用户告诉 OpenAI，他们发现背景中刚好有人的图画进行一般性对话非常有价值，比如当你正在测验遥控器设置时，电视上出现了一个人。

因为 ChatGPT 并不总是精确的，而且这些体系应尊重个人隐私，因此 OpenA 还采取了技能办法，大大限制 ChatGPT 剖析和直接陈述人的才能。

实在世界的运用情况和反应将协助 OpenAI 在坚持东西有用性的同时，使这些保障办法更加完善。

模型限制的通明度

用户或许会依靠 ChatGPT 来处理专业话题，例如研讨范畴。OpenAI 对模型的局限性坚持通明，不鼓励未经恰当验证的高危险用例。此外，该模型通晓英语文本的转录，但对其他一些言语，尤其对错罗马字母的言语，表现不佳。OpenAI 主张非英语用户不要运用 ChatGPT。

用户能够在图画输入体系卡中阅读更多有关安全办法以及与 Be My Eyes 协作的信息。

OpenAI 将扩展访问范围

Plus 和 Enterprise 用户将在未来两周内体会语音和图画, 很快乐不久后能向包含开发人员在内的其他用户群推出这些功用。

原文链接：ChatGPT can now see, hear, and speak (openai.com)

重磅！OpenAI 在 ChatGPT 内推出语言和图像功能

相关文章

AI时代已来，吴恩达呼吁向每个孩子教授人工智能知识

在Android手机上对https请求进行抓包

使用 C++ 部署深度学习模型快速上手方案

从 ReentrantLock 探究 AQS 细节 – 独占锁篇

作者信息