如何实现一款接入chatGPT的智能音箱-六虎

现有的一些“智能音箱”如某度和某猫精灵，跟现在的chatGPT比显得智障。假如能有一款接入chatGPT的智能音箱，它的交互性就很多啦。有gpt加持的智能音箱绝对会很强，以下供给讨论下完成思路。

现在智能音箱在语音交互层面依然不行成熟，正如雷科技此前撰写《ChatGPT该给语音帮手们补补“智商”了》一文中说到的那样，不管是Siri仍是小爱同学，大部分运用过语音帮手的用户大约都赞同，它们必定不算聪明，甚至交互起来十分别扭。

语音交互体会欠安，用户天然用起来的爱好就不大了。

然而，ChatGPT的忽然呈现，给职业带来了期望。这类大型天然言语处理模型，刚好能处理传统语音帮手“无法理解前后语意，长句辨认不行准确”的问题，能为语音交互供给更好的准确性、扩展性、连贯性，让机器理解人类语音指令的能力，完成指数级飞跃。

正因如此，借助ChatGPT来优化语音帮手的设想，确实存在着较高的可行性。假如真的能让语音帮手接入ChatGPT，那就能让智能音箱主动分辨用户是否在和自己交流，并和用户随时随地展开天然交流。让用户愿意去和智能音箱攀谈，也让智能音箱成为用户日常日子或工作中，真实高效智能的帮手。

要完成一个智能 AI 音箱，涉及到语音辨认、天然言语处理、语音组成等多个技术领域。下面介绍一个扼要的完成计划进程。

完成进程

收集语音指令需求运用麦克风或许其他外部设备来收集用户的语音指令。能够运用如 PortAudio 等音频库进行录音，并转换成适合语音辨认的采样率和格式。
语音辨认收集到语音数据之后，需求运用语音辨认技术将其转换成文本。能够运用如百度智能云、讯飞等供给的语音辨认服务，也能够运用开源的语音辨认库如 Kaldi 等进行离线辨认。
文本处理得到文本之后，需求进行天然言语处理，将指令分类和解析。这儿能够运用 chatgpt 进行指令分类和对话管理。需求将 chatgpt 集成到代码中，并在处理文本时发送给 chatgpt 进行处理。
处理 chatgpt 响应得到 chatgpt 的响应之后，需求将其转换成语音并进行播映。能够运用各类语音组成库，如百度智能云、讯飞、MaryTTS 等进行语音组成，并运用如 PortAudio 等音频库进行播映。以上计划仅为一种扼要的完成计划。

PortAudio介绍

PortAudio是一个免费的、跨渠道的、开放源码的音频I/O库。它能够让你用C或C++来编译并在多种渠道能够运行的简略音频程序，包括Windows、Macintosh OS X和UNIX（OSS / ALSA）。它旨在促进不同渠道上开发人员之间的音频软件交融。许多应用程序已经运用PortAudio库进行音频I/O处理。

Kaldi介绍

Kaldi是现在最流行的ASR（主动语音辨认技术）开源项目之一，已被很多商用的言语辨认系统运用。自从2019年Kaldi最主要的开发维护者，被称为Kaldi之父的Daniel Povey参加小米，出任小米集团语音首席科学家后，愈加提升了小米的智能语音产品，并且小米也许诺会继续坚持自己纯粹、极致的开源文明，继续不断地加大对Kaldi的投入，继续为Kaldi社区做贡献。

跋文

有开发者已经这样做了。在代码保管渠道Github上，有开发者测验将ChatGPT接入小爱同学，只要用户完成部署，所有引发小爱同学后，以「帮我」最初询问的问题都会主动以文本形式发送一份给ChatGPT，而ChatGPT 生成的文本则会被小爱同学通过TTS（语音组成技术）进行语音回答。

从开发者的演示显现，整个进程满足流通，实践回答也远超小爱同学原本的“智力”水平。

不过，这个项目只是个人开发者的测验，这也意味着现在接入ChatGPT的小爱同学只要谈天能力，假如你将悉数对话都接到ChatGPT，那么智能互联的功用就相当于全废了，比如定闹钟、播音乐、操控iot设备等。

如何让ChatGPT在听得懂人说话的同时，能够去协助人们干事，才是改进智能音箱运用体会的关键所在。

引用

基于KALDI开发安卓离线语音辨认项目

在树莓派上建立kaldi离线语音辨认系统

kaldi嵌入式渠道的移植及完成 Linux音频录制和播映

markdown PortAudio —— 跨渠道音频收集API PortAudio portaudio运用笔记

Kaldi的简略介绍

kaldi在Windows下的运用

本文由mdnice多渠道发布

如何实现一款接入chatGPT的智能音箱

完成进程

PortAudio介绍

Kaldi介绍

跋文

引用

相关文章

【七夕限定盲盒抽奖】一文带你搞懂盲盒抽奖的页面配置

在AWS EC2上运行Windows并通过RDP远程连接

字节跳动 Flink 大规模云原生化实践

OC对象底层内存开辟和实现(下)

作者信息