脸书的VoxPopuli是截止目前为止全球最大的多语言语音数据集,涵盖了共二十三种语言,每一种语言都有9000到18000个小时的无标签语音数据。另外还有1800个小时的十六种语言的转录语音数据以及17300个小时的十五种目标语言的口译语音数据,时长累计共超过了四十万个小时。
可能会有朋友不了解为什么要将语言语音收集成库呢?其实这一数据集的庞大的无标签数据量和广泛的语言覆盖率,将会对日后改进自监督模型有着很大的帮助作用,也可以加速新的NLP系统开发,使AI翻译的效果越来越好,训练语音转换神经网络更加可靠。
关于为什么起这个名字的原因,其实很简单,朋友们看看它的直译“人民的心声”就可以了解它的用心良苦,这个数据集的原始数据来源于2009年到2020年之间的欧洲议会的活动录音。
如全体会议,委员会会议之类的,在这些会议中发言者都会以不同的语言轮流发表演讲,而脸书正式通过这个机会来抓取每场演讲的文字记录以及演讲者信息之类的信息。
总结:不管是对于域内语言还是域外语言,对与这个数据集来说,这个自我训练在大多数时候都能够有效的提高性能。在翻译方面也不用再增加昂贵的标签数据,除此之外还可以通过自我训练的方式,缩小端到端模型和级联模型之间的差距。
相关文章