语音转录文字,faster-whisper 效果是很不错的,不过部署、装置、配置问题不少,尤其是需求CUDA加快时,不仅要装置CUDA 还需求额定装置cuDNN和cuBLAS等,在装置之前还要升级显卡驱动,这难到不少小白用户。根据此,运用 fastAPI和faster-whipser 搞了一个在线语音辨认文字网站。运用简略,直接上传 音频、视频等即可开端辨认,无需注册无需登录。

在线免费语音转文字 stt.pyvideotrans.com

实现原理

fastAPI搭建路由服务,起一个模板页面,前端运用Layui做个简略款式。

根据fastapi和faster-whisper打造在线语音辨认文字

直接上传 音频、视频文件,后端将运用ffmpeg 将文件转为 wav 格式的音频,再传递给 faster-whisper 模型处理,等待辨认完结后,将成果返回给前端,前端获取到成果后,将在页面烘托显现并提供下载按钮。

根据fastapi和faster-whisper打造在线语音辨认文字

运用方法

准备待辨认的音频或视频

  1. 挑选想要转录为文字的音频或视频,假如布景声较大,建议预先别离出布景声,只保存单纯人声,辨认效果会更好。推荐布景别离东西请查看 juejin.cn/post/734161…
  2. 现在约束允许上传的文件最大尺度为 30MB,建议预先从视频里提出音频文件,单独只上传音频,这样能大幅降低尺度,本来100MB的视频提取出音频后,可能不到30MB。

上传进行辨认

根据fastapi和faster-whisper打造在线语音辨认文字

点击挑选文件或者直接拖拽到上传区域,然后挑选“视频里的说话言语”,要特别注意,有必要挑选和视频里说话言语完全一致的言语,否则会犯错。

挑选后,点击“开端上传并辨认”按钮。会主动开端上传,上传完毕后进入排队状态,右侧区域将显现当时排队状况。

辨认完结后下载

当辨认完结后,右侧区域将显现“已完结”字样,点击就会在下方显现当时辨认出的字幕内容和字幕下载按钮。

根据fastapi和faster-whisper打造在线语音辨认文字

根据fastapi和faster-whisper打造在线语音辨认文字

点击可下载

特别需求注意的几点

  1. 音视频文件尽量干净,无布景噪声,假如有,尽量提早别离,确保人声足够明晰。
  2. 所选视频言语有必要与视频里人类说话言语完全一致,否则无法辨认
  3. 请等待前一个使命完结后再持续下一个

当时约束

很显然,免费服务有必要有所约束,尤其是这类重资源耗费的AI服务,我的服务器资源非常有限,因而约束上传尺度不大于30MB,上传后排队挨个处理。

假如你上传后在排队阶段不想辨认了,请点击右侧删除按钮移除该使命,以削减排队数量。

根据fastapi和faster-whisper打造在线语音辨认文字