咱们好,我是千与千寻,你们能够叫我千寻哥,算一算写ChatGPT的技术文章现已写到第四篇了!
今天和咱们介绍的一个项目归于音频范畴的ChatGPT的应用实践。真没想不到,在音频范畴,ChatGPT都没有放过,ChatGPT这是杀疯了呀!
现在的ChatGPT是一个实打实的风口,也希望咱们跟我一起努力在风口上飞起来!
之前我曾经写过三篇ChatGPT相关的,咱们能够再去看一看,今天和咱们介绍的大模型应用是AudioGPT,与其他的ChatGPT的差异在于,ChatGPT归于大模型的文字对话模型。
而AudioGPT则是针对于语音范畴。AudioGPT可完成的功用有以下几点,给咱们总结一下。
别的咱们需求注意的是AudioGPT的运用是需求依据ChatGPT根底的,为什么这么说呢?原因在于需求咱们经过运用OpenAI的API key进拜访权限的验证,如图为OpenAI key的获取示意图
所以咱们如果还没有OpenAI的GPT账号的,自己去请求一下,然后将这个API Key放到这个AudioGPT的输入框中,即可进行运转程序。
以下是AudioGPT程序的地址:
https://github.com/AIGC-Audio/AudioGPT
以下跟咱们演示一下怎么在自己的电脑上去运转AudioGPT的代码程序,以及怎么学会正确运用AudioGPT完成对应的功用?
首要需求完成建立模型运转环境,然后装置requirements文件列表里边的这依赖项,以及怎么完成在咱们本地的客户端去运转AudioGPT的程序。
- 创立运转程序新的conda环境
#createanewenvironment
condacreate-naudiogptpython=3.8
- 装置环境运转所需依赖,以及下载模型文件
#preparethebasicenvironments
pipinstall-rrequirements.txt
#downloadthefoundationmodelsyouneed
bashdownload.sh
- 导入你的OpenAI Key字符串进入代码文件
#prepareyourprivateopenAIprivatekey
exportOPENAI_API_KEY={Your_Private_Openai_Key}
- 开始运转AudioGPT程序
pythonaudio-chatgpt.py
至此咱们能够实践检验AudioGPT的实践功用。
以上的操作过程仍是似乎仍是倾向于极客,能够直接运用Hugging Face社区,调用实践的API接口,运用更加方便。以下是Hugging Face社区的代码地址:
https://huggingface.co/spaces/AIGC-Audio/AudioGPT
AudioGPT作用如下图所示:
实践环节演示
AudioGPT包含以下几种功用,因为AudioGPT的模型归于语音音频方向的大模型。其功用包含以下的内容分类。
榜首、完成依据输入文本转化为语音文件的语音合成
例如:生成带有文本“here we go”的语音音频
第二、完成将单通道语音转化为双通道语音
第三、依据语言的文本描绘生成对应语音
例如:生成狗叫声的音频:
第四,依据音频输出指定文字的描绘
例如:给我这个生成音频的描绘
第五、依据输入语音信号转化输出其对应的频谱图
第六、说明音频内部所包含的事件以及起止时间
例如:这段音频中的雷声是什么时分产生的?
不仅如此,AudioGPT也集成了图像识别的功用,依据图片输入的上传图片生成对应的内容描绘音频
例如:上传下图的江南水乡的图片
然后经过江南水乡的图片,生成的雨水声音
怎么样感觉作用怎么?不过其实告诉咱们一个隐秘,音频信号的处理,相对来说,比较占用内存,处理音频的时间较长,能够选择不同的加速硬件GPU,如下图所示
原始运用的T4显卡是免费的,其实理论上计算功能也还不错,免费的,还要啥自行车!
不过如果有更多的需求,当然也能够按需购买。