现有的一些“智能音箱”如某度和某猫精灵,跟现在的chatGPT比显得智障。假如能有一款接入chatGPT的智能音箱,它的交互性就很多啦。有gpt加持的智能音箱绝对会很强,以下供给讨论下完成思路。

现在智能音箱在语音交互层面依然不行成熟,正如雷科技此前撰写《ChatGPT该给语音帮手们补补“智商”了》一文中说到的那样,不管是Siri仍是小爱同学,大部分运用过语音帮手的用户大约都赞同,它们必定不算聪明,甚至交互起来十分别扭。

语音交互体会欠安,用户天然用起来的爱好就不大了。

然而,ChatGPT的忽然呈现,给职业带来了期望。这类大型天然言语处理模型,刚好能处理传统语音帮手“无法理解前后语意,长句辨认不行准确”的问题,能为语音交互供给更好的准确性、扩展性、连贯性,让机器理解人类语音指令的能力,完成指数级飞跃。

正因如此,借助ChatGPT来优化语音帮手的设想,确实存在着较高的可行性。假如真的能让语音帮手接入ChatGPT,那就能让智能音箱主动分辨用户是否在和自己交流,并和用户随时随地展开天然交流。让用户愿意去和智能音箱攀谈,也让智能音箱成为用户日常日子或工作中,真实高效智能的帮手。

要完成一个智能 AI 音箱,涉及到语音辨认、天然言语处理、语音组成等多个技术领域。下面介绍一个扼要的完成计划进程。

完成进程

  1. 收集语音指令 需求运用麦克风或许其他外部设备来收集用户的语音指令。能够运用如 PortAudio 等音频库进行录音,并转换成适合语音辨认的采样率和格式。

  2. 语音辨认 收集到语音数据之后,需求运用语音辨认技术将其转换成文本。能够运用如百度智能云、讯飞等供给的语音辨认服务,也能够运用开源的语音辨认库如 Kaldi 等进行离线辨认。

  3. 文本处理 得到文本之后,需求进行天然言语处理,将指令分类和解析。这儿能够运用 chatgpt 进行指令分类和对话管理。需求将 chatgpt 集成到代码中,并在处理文本时发送给 chatgpt 进行处理。

  4. 处理 chatgpt 响应 得到 chatgpt 的响应之后,需求将其转换成语音并进行播映。能够运用各类语音组成库,如百度智能云、讯飞、MaryTTS 等进行语音组成,并运用如 PortAudio 等音频库进行播映。 以上计划仅为一种扼要的完成计划。

PortAudio介绍

PortAudio是一个免费的、跨渠道的、开放源码的音频I/O库。它能够让你用C或C++来编译并在多种渠道能够运行的简略音频程序,包括Windows、Macintosh OS X和UNIX(OSS / ALSA)。它旨在促进不同渠道上开发人员之间的音频软件交融。许多应用程序已经运用PortAudio库进行音频I/O处理。

Kaldi介绍

Kaldi是现在最流行的ASR(主动语音辨认技术)开源项目之一,已被很多商用的言语辨认系统运用。自从2019年Kaldi最主要的开发维护者,被称为Kaldi之父的Daniel Povey参加小米,出任小米集团语音首席科学家后,愈加提升了小米的智能语音产品,并且小米也许诺会继续坚持自己纯粹、极致的开源文明,继续不断地加大对Kaldi的投入,继续为Kaldi社区做贡献。

跋文

有开发者已经这样做了。在代码保管渠道Github上,有开发者测验将ChatGPT接入小爱同学,只要用户完成部署,所有引发小爱同学后,以「帮我」最初询问的问题都会主动以文本形式发送一份给ChatGPT,而ChatGPT 生成的文本则会被小爱同学通过TTS(语音组成技术)进行语音回答。

从开发者的演示显现,整个进程满足流通,实践回答也远超小爱同学原本的“智力”水平。

不过,这个项目只是个人开发者的测验,这也意味着现在接入ChatGPT的小爱同学只要谈天能力,假如你将悉数对话都接到ChatGPT,那么智能互联的功用就相当于全废了,比如定闹钟、播音乐、操控iot设备等。

如何让ChatGPT在听得懂人说话的同时,能够去协助人们干事,才是改进智能音箱运用体会的关键所在。

如何实现一款接入chatGPT的智能音箱

引用

基于KALDI开发安卓离线语音辨认项目

在树莓派上建立kaldi离线语音辨认系统

kaldi嵌入式渠道的移植及完成 Linux音频录制和播映

markdown PortAudio —— 跨渠道音频收集API PortAudio portaudio运用笔记

Kaldi的简略介绍

kaldi在Windows下的运用

本文由mdnice多渠道发布