语音识别运用于在线AI系统-在线AI转换官网

使用教程

语音识别运用于在线AI系统

语音识别（Automatic Speech Recognition），一般简称ASR；是将声音转化为文字的过程，相当于人类的耳朵。

1）语音识别原理流程：“输入——编码——解码——输出”

语音识别，大体可分为“传统”识别方式与“端到端”识别方式，其主要差异体现在声学模型上。“传统”方式的声学模型一般采用隐马尔可夫模型（HMM），而“端到端”方式一般采用深度神经网络（DNN）。

注：更多编码、解码等技术细节，感兴趣的同学可看《CUI三部曲之语音识别——机器如何听懂你的话？》语音识别的应用，就这么简单？不是的，在实际场景，有很多种异常情况，都会导致语音识别的效果大打折扣，比如距离太远了不行，发音不标准不行，环境嘈杂不行，想打断也不行，等等。所以，还需要有各种解决方案来配合。

2）语音识别的评价指标——识别率

看纯引擎的识别率，以及不同信噪比状态下的识别率（信噪比模拟不同车速、车窗、空调状态等），还有在线/离线识别的区别。

实际工作中，一般识别率的直接指标是“WER（词错误率，Word Error Rate）”

定义：为了使识别出来的词序列和标准的词序列之间保持一致，需要进行替换、删除或者插入某些词，这些插入、替换或删除的词的总个数，除以标准的词序列中词的总个数的百分比，即为WER。

Substitution——替换

Deletion——删除

Insertion——插入

N——单词数目

3点说明

A）WER可以分男女、快慢、口音、数字/英文/中文等情况，分别来看。

B）因为有插入词，所以理论上WER有可能大于100%，但实际中、特别是大样本量的时候，是不可能的，否则就太差了，不可能被商用。

C）站在纯产品体验角度，很多人会以为识别率应该等于“句子识别正确的个数/总的句子个数”，即“识别（正确）率等于96%”这种，实际工作中，这个应该指向“SER（句错误率，Sentence Error Rate）”，即“句子识别错误的个数/总的句子个数”。不过据说在实际工作中，一般句错误率是字错误率的2~3倍，所以可能就不怎么看了。

下面给大家介绍一个在线AI服务的网站，相信我们大多数都用得上。

在线文字转语音网站：http://www.zaixianai.cn

在线AI网站

在在线AI转换网站，我们直接点击（在线语音合成），我们直接将需要转换成真人语音的文字直接复制在网站即可。

比如在线AI转换网站的内容：

在线AI转换网站是一个在线服务网站。

可在线进行文字合成语音，语音转文字，图像处理，文字识别等相关服务。

标签：在线AI网站，语音合成，语音转换，

上一篇:人工智能，虚拟技术，语音识别技术在我们的生活中下一篇:AI语音技术发展极速

使用教程

​语音识别运用于在线AI系统

语音识别运用于在线AI系统