近日,Daniel Povey以小米首席语音科学家的身份亮相发布会现场,宣布同团队完成了关于新一代Kaldi的所有子项目的布局。并且他还表示,新一代Kaldi目标不仅仅只是赶上或者稍领先于现有语音识别库,而是要从根本上彻底改变语音识别的实现方式。
据悉,经过近一年多的技术研发,Daniel带领的小米语音技术团队完成了新一代Kaldi所有模块的研发和更新,让其在Librispeech数据集上的词错率降到了2.57%。
通过升级全新的代码库来解决上一代语音识别开源工具灵活性不足以及体量过大等问题。除此之外,作为核心部件的k2,也不仅局限于用做语音识别,也可以用来做手写文字识别等其他任务。
关于这个语音识别开源工具Kaldi,但凡是设计到语音领域的团队都在使用由语音识别开源工具带来的智能开发解决方案,其中就包括了全球各行各业的巨头,比如MIT、哈佛、清华、微软、谷歌等。
2019年Daniel离任约翰霍普金斯大学副教授一职后,Facebook、小米、美团等互联网公司纷纷抛来橄榄枝。在这些邀请中,Daniel Povey选择了小米,至此便带领着小米语音技术团队进入开发新一代Kaldi的工作中。
相关文章