语音识别应用

得益于近年来深度学习技术的快速发展，人工智能的主要分支（图像、语音、自然语言处理等）都相继进入了大规模落地应用阶段。梳理市场上的语音产品及服务，我们可以看到，其中既包括国际巨头：

Google：Google Cloud语音API、Google Home音箱、Google移动端、网页端语音搜索
Amazon：Alexa平台、Echo智能音箱
Apple：Siri语音助手，HomePod智能音箱
Microsoft：Azure平台感知服务语音API、Cortana智能助理
Nuance：医疗、车载、智能硬件等垂直领域语音解决方案

也包括国内的大牌企业:

阿里巴巴：阿里云平台语音服务、天猫精灵
腾讯：腾讯云平台语音服务、微信、王者荣耀语音转文字
百度：AI开放平台、智能云、语音搜索、地图、小度音响、语音输入法
科大讯飞：讯飞语音云、语音输入法、讯飞听见
小米：小爱开放平台、小爱音箱、电视语音控制
搜狗：知音平台、语音输入法、翻译机、录音笔

除此之外还有思必驰、出门问问、云知声、声智、地平线、依图等诸多的创业公司在探索语音技术的应用市场。

语音识别哪家强？

语音识别，也就是我们常说的“语音转文字”功能，已经悄然进入到人们的生产和生活中。面对上述如此之多的产品和服务，我们会很自然的产生疑问：

“哪家的语音识别技术最领先，识别准确率最好？”

这是一个难以回答的问题。第一，从近年来各家公司发布的令人眼花缭乱的宣传报告中，我们很难提取出足够的可靠信息做出判断。第二，实际上，如果说这个问题真的存在正确答案的话，那应该是“没有正确答案”。

那么，如何以一个更加客观、全面的专业角度看待这个问题？我们先举几个生活中的例子来进行说明：

体育赛场上，我们一般不会问 “这个百米运动员和那个马拉松运员谁跑的更快？” 因为体育运动有着细致的分类和专精，很难一概而论的评价一个运动员比另一个运动员强。
生活里，我们也不大可能提出“洗发水、沐浴露、洗面奶哪个清洁效果更好？”这样的问题。因为具体用途不同，我们已经习惯于把这些产品区分开来。

任何行业在发展到一定程度后，都会发生这样的领域细分，语音识别也是如此。“语音转文字”在不同的使用场景下，需要面对截然不同的限制和挑战，包括

识别任务的领域、上下文语境
远场、近场，单麦、麦克风阵列
背景噪声的类型、强弱
说话人的讲话方式，语速
口音方言，等等等等。

行业外人士总是倾向于低估这些差异的影响，但从内行来看，这些区别并不亚于上面的几个生活中的例子。产生这种认知差异的最主要原因，是当前AI技术的普适性和人们对AI技术的预期之间仍存在巨大鸿沟，这里不深入讨论。

各家公司，在构建语音识别系统过程中，选择了不同的技术路线，也积累着各自领域的基础语音数据。这种差异，像“基因”一样，潜移默化的塑造着各自的语音服务专长。举语音搜索任务为例，谷歌的搜索业务和数据沉淀，决定了其具有相当大的优势；但若语言切换到中文语音搜索，百度则可能更好；再若领域切换到电商商品搜索，淘宝移动端的语音搜索则理应更强。所谓“通用的语音识别”在现阶段并不存在，因此，我们也很难一概而论的断言哪家的语音识别准确率最高，或对各家的整体语音识别能力进行片面的排行。

因此，在谈论“语音识别哪家强”时，明确具体的使用场景，才更有现实意义。一般来说，只有在业务高度重叠的竞争领域才可能进行公司间的横向对比，如：

• 地图应用的POI语音搜索：百度、高德（阿里）

• 语音输入法：讯飞、百度、搜狗

• 智能音箱：小度音箱、小爱同学、天猫精灵

对这些重要产品，各家都进行了深度的定制优化，同时也会投入相当多的资源来进行竞品对标测试。遗憾的是，这些内部测试的结果永远都不会对外界公开。

为什么我们需要一个中立公开的语音识别评测榜？

观察成熟的传统汽车行业，可以发现，市场和消费者对于汽车品牌的认知不会局限在在“谁家的汽车更好？” 。专业的汽车评测通常包涵多个维度，如汽车的引擎动力系统、油耗、控制、碰撞安全性、驾驶体验等等。客观、细致的量化评测，对行业的健康发展和消费者的合理决策提供了必要的基础。

回到语音识别，我们则经常会面对下面这样的情况：

某公司的产品需要引入语音识别功能，在进行识别服务选型时，如何结合自己的业务领域，对各家语音识别供应商进行横向对比？面对时政类、财经类、体育类、游戏类、在线教育类、客服类的业务，各个厂商都分别能做到什么样的程度？
语音厂商和AI媒体出于不同的激励，在夸大宣传上具有行为一致性，导致我们经常在宣传中看到 “A家的语音识别准确率超过了97%”，“B家的语音识别击败人类”，“C家的语音识别已经具备接近人类的抗噪能力” 这样的描述。公众对于这类描述背后的场景、领域、先决限制条件缺乏了解，很容易被误导。这些潜在的语音用户，需要掌握更加透明、客观、具体的信息，来修正对语音识别的误解。
随着技术的逐代更迭，数据的逐步积累，行业领先的语音识别厂商相比本年初，一年、三年、五年前，整体都有多大的进步？这样的量化数据记录，在语音行业一直是空白。

为了回答类似问题，我们发起 SpeechIO TIOBE Benchmark 项目，希望：

通过明确、公开、中立的测试方法，对各家厂商的公共语音识别服务的进行定量评测。不求得出一刀切式的“语音识别哪家强？”或者绝对的“排行榜”，但求中立、客观的进行“尺有所短寸有所长” 的细分领域评测。帮助公众（语音行业的潜在客户）更好的了解语音识别行业能力现状。
定期评估、记录行业头部语音识别准确度，帮助业内人士更准确的追踪每一波技术创新为行业带来的实际进步。

关注 TIOBE Benchmark 后续进展，搜索并关注 Speech IO 微信公众号，也欢迎大家后台或者评论留言给出宝贵的建议。欢迎转载，无需授权。

最后，以 TIOBE 名字的由来作为引篇结语：

“I've now realised for the first time in my life the vital Importance of Being Earnest.”

节选自《The Importance Of Being Earnest：不可儿戏》- 奥斯卡·王尔德

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

TIOBE_introduction.md

TIOBE_introduction.md

语音识别应用

语音识别哪家强？

为什么我们需要一个中立公开的语音识别评测榜？

Files

TIOBE_introduction.md

Latest commit

History

TIOBE_introduction.md

File metadata and controls

语音识别应用

语音识别哪家强？

为什么我们需要一个中立公开的语音识别评测榜？