谷歌的野心:通用语音识别大模型已经支持 100+ 语言

瓦力数码评测

选自 googleblog

机器之心编译

编辑:小舟、杜伟

谷歌表示,推出通用语音模型(USM)是其未来支持 1000 种语言的关键一步。

去年 11 月,谷歌宣布推出「1000 种语言计划」,旨在构建一个机器学习 ( ML ) 模型,支持世界上使用最广泛的 1000 种语言,从而为全球数十亿人带来更大的包容性。然而,其中一些语言的使用人数不到两千万,因此核心挑战是如何支持使用人数相对较少或可用数据有限的语言。

现在,谷歌公开了更多有关通用语音模型 ( USM ) 的信息,这是支持 1000 种语言的第一步。USM 包含一系列 SOTA 语音模型,带有 20 亿参数,经过 1200 万小时的语音和 280 亿个文本句子的训练,涵盖 300 多种语言。USM 不仅可以对英语和普通话等广泛使用的语言执行自动语音识别(ASR),还可以对阿姆哈拉语、宿雾语、阿萨姆语、阿塞拜疆语等使用人数很少的语言执行自动语音识别。

谷歌证明了利用大型未标记的多语言数据集来预训练模型的编码器,并用较小的标记数据集进行微调,能够让模型识别使用人数非常少的语言。此外,谷歌的模型训练过程可以有效地适应新的语言和数据。

USM 的整体训练流程。

第一步中谷歌使用了 BEST-RQ,因为它已经在多语言任务上展示了 SOTA 结果,并且在使用大量无监督音频数据时被证明是有效的。

在第二步中,谷歌使用了多目标有监督预训练来整合来自额外文本数据的知识。USM 模型引入了一个额外的编码器模块将文本作为输入,并引入了额外的层来组合语音编码器和文本编码器的输出,然后再在未标记语音、标记语音和文本数据上联合训练模型。

凭借在预训练期间获得的知识,最后一步 USM 模型仅需来自下游任务的少量有监督数据即可获得良好的模型性能。

主要结果展示

YouTube Captions 测试集上不同语言的性能

谷歌的编码器通过预训练整合了 300 多种语言,并通过在 YouTube Caption 多语言语音数据上微调证明了该预训练编码器的有效性。监督式 YouTube 数据包括 73 种语言,每种语言平均具有不超过 3000 小时的数据。尽管监督数据有限,USM 仍在 73 种语言中平均实现了低于 30% 的词错率(WER,越低越好),这是以往从未实现的里程碑。对于 en-US,与当前谷歌内部 SOTA 模型相比,USM 的 WER 相对降低了 6%。

谷歌还与 OpenAI 近期发布的大模型 Whisper ( large-v2 ) 进行了比较,后者使用超过 400k 小时的标注数据进行训练。为了便于比较,谷歌仅使用 Whisper 可以成功解码且 WER 低于 40% 的 18 种语言。结果如下图所示,USM 的平均 WER 比 Whisper 低了 32.7%

对于下游 ASR 任务的泛化性能

对于公开可用的数据集,USM 在 CORAAL(非裔美国人土语)、SpeechStew(en-US)和 FLEURS(102 种语言)数据集上显示出了较 Whisper 更低的 WER。USM 在接受和没有接受域内数据训练的情况下都实现了更低的 WER。具体结果如下图所示。

自动语音翻译(AST)性能

对于语音翻译,谷歌在 CoVoST 数据集上进行微调。谷歌的模型(包括通过 pipeline 第二阶段的文本)在有限监督数据下实现了 SOTA 性能。此外,为了评估模型性能的广度,谷歌根据资源可利用性将 CoVoST 数据集中的语言分为了高(high)、中(medium)和低(low),并计算相应的 BLEU 分数(越高越好)。

如下图所示,USM 在所有语言细分中超越了 Whisper

未来将支持 1000 种语言

USM 的开发是实现「谷歌组织全球信息并使人人皆可访问」使命的关键努力。谷歌相信,USM 的基础模型架构和训练 pipeline 奠定了将语音建模扩展到未来 1000 种语言的根基。

更多细节请参阅相关论文:https://arxiv.org/abs/2303.01037v2

原文链接:https://ai.googleblog.com/2023/03/universal-speech-model-usm-state-of-art.html

THE END

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

免责声明:本文来自雷炳侠,不代表浮光掠影知识网 - 专注有价值知识的生活内容平台的观点和立场,如有侵权请联系本平台处理。

相关阅读

发表评论

表情:
评论列表 (暂无评论,1482人围观)

还没有评论,来说两句吧...

取消
微信二维码
微信二维码
支付宝二维码