layout | title | permalink | key | tags | lang | author | aside | ||
---|---|---|---|---|---|---|---|---|---|
article |
TIOBE 评测榜 |
/introduction |
TIOBE_introduction |
TIOBE-Benchmark |
zh-Hans |
SpeechIO |
|
得益于近年来深度学习技术的快速发展,人工智能的主要分支(图像、语音、自然语言处理等)都相继进入了大规模落地应用阶段。梳理市场上的语音产品及服务,我们可以看到,其中既包括国际巨头:
- Google:Google Cloud语音API、Google Home音箱、Google移动端、网页端语音搜索
- Amazon:Alexa平台、Echo智能音箱
- Apple:Siri语音助手,HomePod智能音箱
- Microsoft:Azure平台感知服务语音API、Cortana智能助理
- Nuance:医疗、车载、智能硬件等垂直领域语音解决方案
也包括国内的大牌企业:
- 阿里巴巴:阿里云平台语音服务、天猫精灵
- 腾讯:腾讯云平台语音服务、微信、王者荣耀语音转文字
- 百度:AI开放平台、智能云、语音搜索、地图、小度音响、语音输入法
- 科大讯飞:讯飞语音云、语音输入法、讯飞听见
- 小米:小爱开放平台、小爱音箱、电视语音控制
- 搜狗:知音平台、语音输入法、翻译机、录音笔
除此之外还有思必驰、出门问问、云知声、声智、地平线、依图等诸多的创业公司在探索语音技术的应用市场。
语音识别,也就是我们常说的“语音转文字”功能,已经悄然进入到人们的生产和生活中。面对上述如此之多的产品和服务,我们会很自然的产生疑问:
“哪家的语音识别技术最领先,识别准确率最好?”
这是一个难以回答的问题。第一,从近年来各家公司发布的令人眼花缭乱的宣传报告中,我们很难提取出足够的可靠信息做出判断。第二,实际上,如果说这个问题真的存在正确答案的话,那应该是“没有正确答案”。
那么,如何以一个更加客观、全面的专业角度看待这个问题? 我们先举几个生活中的例子来进行说明:
- 体育赛场上,我们一般不会问 “这个百米运动员和那个马拉松运员谁跑的更快?” 因为体育运动有着细致的分类和专精,很难一概而论的评价一个运动员比另一个运动员强。
- 生活里,我们也不大可能提出“洗发水、沐浴露、洗面奶哪个清洁效果更好?”这样的问题。因为具体用途不同,我们已经习惯于把这些产品区分开来。
任何行业在发展到一定程度后,都会发生这样的领域细分,语音识别也是如此。“语音转文字”在不同的使用场景下,需要面对截然不同的限制和挑战,包括
- 识别任务的领域、上下文语境
- 远场、近场,单麦、麦克风阵列
- 背景噪声的类型、强弱
- 说话人的讲话方式,语速
- 口音方言,等等等等。
行业外人士总是倾向于低估这些差异的影响,但从内行来看,这些区别并不亚于上面的几个生活中的例子。产生这种认知差异的最主要原因,是当前AI技术的普适性和人们对AI技术的预期之间仍存在巨大鸿沟,这里不深入讨论。
各家公司,在构建语音识别系统过程中,选择了不同的技术路线,也积累着各自领域的基础语音数据。这种差异,像“基因”一样,潜移默化的塑造着各自的语音服务专长。举语音搜索任务为例,谷歌的搜索业务和数据沉淀,决定了其具有相当大的优势;但若语言切换到中文语音搜索,百度则可能更好;再若领域切换到电商商品搜索,淘宝移动端的语音搜索则理应更强。所谓“通用的语音识别”在现阶段并不存在,因此,我们也很难一概而论的断言哪家的语音识别准确率最高,或对各家的整体语音识别能力进行片面的排行。
因此,在谈论“语音识别哪家强”时,明确具体的使用场景,才更有现实意义。一般来说,只有在业务高度重叠的竞争领域才可能进行公司间的横向对比,如:
• 地图应用的POI语音搜索:百度、高德(阿里)
• 语音输入法:讯飞、百度、搜狗
• 智能音箱:小度音箱、小爱同学、天猫精灵
对这些重要产品,各家都进行了深度的定制优化,同时也会投入相当多的资源来进行竞品对标测试。遗憾的是,这些内部测试的结果永远都不会对外界公开。
观察成熟的传统汽车行业,可以发现,市场和消费者对于汽车品牌的认知不会局限在在“谁家的汽车更好?” 。专业的汽车评测通常包涵多个维度,如汽车的引擎动力系统、油耗、控制、碰撞安全性、驾驶体验等等。客观、细致的量化评测,对行业的健康发展和消费者的合理决策提供了必要的基础。
回到语音识别,我们则经常会面对下面这样的情况:
- 某公司的产品需要引入语音识别功能,在进行识别服务选型时,如何结合自己的业务领域,对各家语音识别供应商进行横向对比?面对时政类、财经类、体育类、游戏类、在线教育类、客服类的业务,各个厂商都分别能做到什么样的程度?
- 语音厂商和AI媒体出于不同的激励,在夸大宣传上具有行为一致性,导致我们经常在宣传中看到 “A家的语音识别准确率超过了97%”,“B家的语音识别击败人类”,“C家的语音识别已经具备接近人类的抗噪能力” 这样的描述。公众对于这类描述背后的场景、领域、先决限制条件缺乏了解,很容易被误导。这些潜在的语音用户,需要掌握更加透明、客观、具体的信息,来修正对语音识别的误解。
- 随着技术的逐代更迭,数据的逐步积累,行业领先的语音识别厂商相比本年初,一年、三年、五年前,整体都有多大的进步?这样的量化数据记录,在语音行业一直是空白。
为了回答类似问题,我们发起 SpeechIO TIOBE Benchmark 项目,希望:
- 通过明确、公开、中立的测试方法,对各家厂商的公共语音识别服务的进行定量评测。不求得出一刀切式的“语音识别哪家强?”或者绝对的“排行榜”,但求中立、客观的进行“尺有所短寸有所长” 的细分领域评测。帮助公众(语音行业的潜在客户)更好的了解语音识别行业能力现状。
- 定期评估、记录行业头部语音识别准确度,帮助业内人士更准确的追踪每一波技术创新为行业带来的实际进步。
关注 TIOBE Benchmark 后续进展,搜索并关注 Speech IO 微信公众号,也欢迎大家后台或者评论留言给出宝贵的建议。欢迎转载,无需授权。
最后,以 TIOBE 名字的由来作为引篇结语:
“I've now realised for the first time in my life the vital Importance of Being Earnest.”
节选自《The Importance Of Being Earnest:不可儿戏》- 奥斯卡·王尔德