在日常作业、日子中,语音辨认技能作为根底服务,越来越多的出现在咱们周围,比方智能音箱、会议记录、字幕生成等等。
作为一项现已很老练AI技能,市面上许多厂商都会供给语音辨认服务,对外宣称的辨认准确性也很高。
关于事务侧的咱们,其实更关怀的是在咱们特定事务场景中的体现如何。
本文将带着咱们从原理到实践了解语音辨认作用评测的方方面面。
语音辨认,又称语音转录文本,是将语音辨认成文本的技能。英文名称 Automatic Speech Recognition,一般缩写为 ASR(下文统一用 ASR 指代)。
显然,一个 ASR 服务的好坏,能够用语音辨认出的文本准不准来衡量。
而这个准不准,业界一般会用一个目标来量化:字正确率(Word Correct,W.Corr),又称辨认正确率。
要理解字正确率,咱们首先要搞清另一个目标 WER。
一、目标原理
1.1 WER 公式
WER(Word Error Rate),即词过错率,是一项用于评价 ASR 作用的重要目标,用来衡量猜测文本与标示文本之间的过错率。
因为英文句子中最小单位是词(Word),而中文最小单位是汉字(Character),因而在中文语音辨认使命中,运用字错率(Character Error Rate, CER)来衡量 ASR 辨认作用。
两者的核算方法相同,咱们一般在中文范畴,也会运用 WER 表明该目标。
WER 的核算公式如下
#Deletions:删去过错字符数
#Insertions:刺进过错字符数
#Substitutions:替换过错字符数
#ReferenceWords:总字符数
1.2 三类过错
整体来看,公式分母是总的字符数,分子是三类过错字符数的加和,下面咱们看下这三类过错的意义
为便于描述,约定如下
REF:语音对应的正确文本内容,又称标示文本,即 Reference
HYP:语音经过 ASR 服务辨认出的文本,即 Hypothesis
删去过错
语音转录文本过程中,原文中原本包括的文字,ASR 没有辨认出来。例子:
语音“你吃了吗”,辨认成“你吃了”,其间的“吗”字没有辨认出来。
刺进过错
语音转录文本过程中,原文中未包括的文字,比方噪音什么的,被 ASR 误辨认成文字了。例如:
语音“你吃了吗”,辨认成“你吃了吗呀”,其间“呀”字是误辨认出的。
替换过错
语音转录文本过程中,原文中包括的文字,被 ASR 过错辨认成了其他的文字。例如:
语音“你吃了吗”,辨认成“你吃了么”,其间“吗”字辨认错了,变成了“么”字。
总结一下
删去过错:辨认少了,语音中原本有的字给漏掉了。
刺进过错:辨认多了,语音中没有的字辨认出来了。
替换过错:辨认错了,语音中的字辨认成其他字了。
理解了这三类过错,回头咱们再看上面各个字段,就很好理解了
综上,可见
WER 指的是,经过 ASR 辨认出的成果文本中,包括的各类过错(删去、刺进、替换)的字符数,与原始文本总数比较,所占的份额值。
现在咱们现已理解了 WER 这个目标,接下来咱们看下经过什么方法进行核算,才干得出这些值。
1.3 修改间隔
在辨认成果文本和标示文本给出的情况下,#ReferenceWords 总字符数很简单得到,而三类过错的数量,咱们需求经过“修改间隔”的引入来核算。
WER 公式中的分子部分,也便是
即为辨认成果文本到标示文本的修改间隔。
也便是咱们只要求得辨认成果文本,到标示文本的修改间隔,除以标示文本字符数,就能够得出 WER 目标了。
下面咱们具体看下什么是修改间隔,他是怎么核算得到的。
修改间隔(Edit Distance),是由俄罗斯科学家弗拉基米尔莱文斯坦(Vladimir Levenshtein)于 1965 年提出,又被称为莱温斯坦间隔(Levenshtein distance)。
修改间隔用于衡量两个字符串之间的类似度,被广泛运用于 DNA 序列比照、拼写检测、过错率核算等范畴。
丈量方法是看至少需求多少次处理,才干将一个字符串转变为另一个字符串。其间每次处理,称作一次修改操作,包括三种:
- 删去,删去一个字符
- 刺进,刺进一个字符
- 替换,替换一个字符
能够看到,这儿的修改操作,正好对应了上述评论的三类过错。
修改间隔越短,两个文本越类似;修改间隔越长,两个文本越不同。
修改间隔能够经过如下公式核算得到:
经过上述公式,核算出辨认成果文本,变换到到标示文本的最小修改操作次数,即可得到其修改间隔。
了解算法的同学应该知道,经过调整不同操作的序列和数量,核算总次数的最小值,是一个典型的动态规划(Dynamic Programming,简称 DP)问题。
不过这个现已超出本文主题的范围,对 DP 算法感兴趣的同学,能够参阅如下资料进一步了解:
-
修改间隔算法与运用场景
-
经典动态规划:修改间隔
-
72. Edit Distance(调查修改间隔的编程题,了解编程的同学能够挑战下)
1.4 WER 核算
小结一下,核算 WER,能够核算从辨认成果到标示文本的修改间隔,再带入下列公式得到
其间各参数如下
1.5 字正确率
好,现在咱们回到最初提到的字正确率(Word Correct),这个目标指什么,和 WER 又是什么关系呢?
字正确率和 WER 比较,核算中忽略了刺进过错字符数,也便是没有把刺进过错归入过错统计傍边。
在实践体系中,上游 ASR 的辨认成果,会被下游使命剖析模块进一步处理,刺进过错的文本会被处理掉,所以只需调查语音中包括的文本,被正确辨认出的份额即可,也便是字正确率。
因而,业界厂商一般也把字正确率,与 WER 一同供给,用于衡量 ASR 辨认作用。
1.6 开源东西
到此,咱们现已理解了 WER 目标、字正确率目标,以及背面的原理与算法。
在产业界,为了避免不同实现造成的目标数据不共同的情况,让各个厂商便于比照各自的数据,咱们一般选用开源东西来核算。
这儿,咱们运用的是美国国家技能研究所 NIST 开源的 Sclite 作为核算东西。
东西经过输入 辨认成果文本、标示文本,能够核算得出对应的 WER,三类过错数及对应的详情。
东西运用
经过供给满意特定格式(trn)的辨认成果文件、标示文本文件,sclite 能够核算生成包括 WER、字正确率,以及三类过错信息在内的详细评测陈述(dtl)。
a. 调用指令示例
# 指令格式 sclite -r reffile [ fmt ] -h hypfile [ fmt [ title ] ] OPTIONS
./bin/sclite -r /corpus/audio_file/16k_60s_all_100.trn trn -h /data/output/16k_zh-PY-16k_60s_all_100.trn trn -i spu_id -o dtlb
标示文件:/corpus/audio_file/16k_60s_all_100.trn
辨认成果:/data/output/16k_zh-PY-16k_60s_all_100.trn
b. 评测陈述示例(dtl)
附:感兴趣的同学能够经过如下官网链接获取 NIST Tools
二、评测实践
网上盛行一句话,知道了许多道理,却依然过欠好这一生。知易行难。
同样,咱们尽管了解了 ASR 作用目标、原理以及开源东西,但或许依然感觉无处下手。
为了降低测验门槛,方便客户简单方便地评价自己事务场景在 腾讯云 ASR 服务 上的辨认作用,腾讯云 AI 运用团队打造了 AI Studio 一键评测东西,让用户能够零根底完结评测。
现在处于内测过程中,让咱们看下如何运用。
2.1 界面预览
AI Studio 官网链接:aistudio.cloud.tencent.com/
打开官网,看到如下页面。
点击右上角【登录】,会跳转到腾讯云官网的登录页面,运用云官网账号登录。
榜首栏,是评测服务选项,这儿咱们挑选【语音辨认】,最右侧的下拉框中包括两个语音辨认接口:录音文件辨认、实时语音辨认;
因为算法模型针对这两个事务场景,分别做了针对性优化,这儿只需挑选自己运用的接口即可。
第二栏,阐明了如何创立测验集,以及标示文件时的注意事项。
第三栏,是提交测验使命时,需求挑选的字段,这儿保持和测验音频元信息共同即可。
2.2 操作指引
下面咱们经过一个实例,展现下如果进行一次评测流程。
a. 预备评测语料
点击页面模板链接,检查测验集的格款式例:
测验语料包括两部分:
- 音频文件:事务场景中搜集的音频数据,采样率为 8k 或 16k
- 标示文件:经过人工方法,将音频中包括的人声讲话,记录到文本文件中
其间,标示文件中数字,需求标识为中文大写形式,例如文本“小明考了98分”,需求标示为“小明考了九十八分”
其他注意事项,参阅页面:
b. 提交评测使命
下面新建评测使命
榜首步:挑选相应参数
依据音频信息,挑选对应的辨认语言、音频采样率
不同引擎类型,已针对特定场景进行优化,在匹配场景下具有更好的辨认作用,这儿挑选最适合的引擎类型即可,如下
第二步:上传标示测验集
将预备好的测验集,压缩打包,经过页面上传
第三步:检查标示测验集内容
这儿体系会解析上传测验集,将音频与标示文本对应后,展现在页面上,供用户进行检查承认(因为测验成果与标示文本的准确性直接相关,需求保证标示文件的正确)。
点击承认提交,完结评测使命的创立。
c. 获取评测成果
使命执行过程中,可经过评测页底部的评测使命办理列表,检查使命状态。
使命状态显示【成功】后,点击右侧【检查成果】,即可检查评测成果:
能够看到评测作用目标字准率(即上述字正确率)、WER、刺进/删去/替换过错率。
同时,也可点击下面的下载地址,获取评测陈述和辨认成果文件,进行进一步剖析。
附录
- AI Studio 官网地址:aistudio.cloud.tencent.com/
- 腾讯云 ASR 官方文档:cloud.tencent.com/document/pr…
- NIST 开源东西:www.nist.gov/itl/iad/mig…