谷歌研究人员训练人工智能区分9种印度语言

世界上有成千上万种语言——确切地说,大约有6500种——来自谷歌、Facebook、苹果和亚马逊等公司的系统每天都在提高识别这些语言的能力。问题是,并非所有这些语言都有大型的语料库可用,这使得培训支持这些系统的数据密集型模型变得困难。

这就是为什么谷歌的研究人员正在探索将数据丰富的语言中的知识应用到数据稀缺的语言中的技术。最近,在奥地利格拉茨举行的Interspeech 2019大会上,一篇预印本论文详细介绍了这一成果。联合作者说,他们的单一端到端模型能够高度准确地识别九种印度语言(北印度语、马拉地语、乌尔都语、孟加拉语、泰米尔语、泰卢固语、坎纳达语、马拉雅拉姆语和古吉拉特邦语),同时显示出自动语音识别(ASR)质量的“显著”提高。

“在这项研究中,我们把重点放在了印度,这是一个天生的多语言社会,有超过30种语言,至少有100万人以英语为母语。”许多这些语言在声音和词汇内容上重叠,这是由于讲本族语的人地理位置相近和共同的文化历史,”研究报告的主要合著者、谷歌研究软件工程师Arindrima Datta和Anjuli Kannan在一篇博客文章中解释说。“此外,许多印度人会说两种或三种语言,这使得在对话中使用多种语言成为一种普遍现象,也是训练单一多语言模式的自然案例。”

上图:传统ASR系统架构与谷歌端到端模型的比较。

有些独特的是,研究人员的系统架构将声学、发音和语言成分结合在一起。以前的多语言ASR工作在没有处理实时语音识别的情况下完成了这项工作。相比之下,Datta、Kannan和他的同事们提出的模型使用了一个循环神经网络转换器,这个转换器可以一次输出一个字符的多语言单词。

为了减少由小的转录语言数据集产生的偏差,研究人员修改了系统架构,加入了额外的语言标识符输入,即来自训练数据语言环境的外部信号。(举个例子:智能手机上设置的语言偏好。)与音频输入相结合,它使模型能够消除给定语言的歧义,并根据需要学习不同语言的不同特性。

团队通过以剩余适配器模块的形式为每种语言分配额外的参数,进一步扩展了模型,这有助于对全局的每种语言模型进行微调,并提高整体性能。最终的结果是一个多语言系统,它的性能优于所有其他单语言识别器,简化了培训和服务,同时满足谷歌Assistant等应用程序的延迟需求。

上图:谷歌人工智能模型识别的9种语言的训练数据图表。

“基于这一结果,我们希望继续为其他语言群体研究多语种asr,以更好地帮助我们不断增长的多样化用户群体,”合著者写道。“谷歌的使命不仅是组织全世界的信息,而且要让全世界的人都能获得这些信息,这意味着确保我们的产品能以世界上尽可能多的语言工作。”

这个系统——或者类似的系统——很可能会在谷歌Assistant中得到应用,它在2月份获得了多语言支持,支持用韩语、北印度语、瑞典语、挪威语、丹麦语和荷兰语进行多回合对话

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时候联系我们修改或删除,多谢