廷切夫先生摇了摇头。 Alexa 去掉了“party”中的“r”,使这个词听起来平淡,就像 pah-tee。 他总结道,太英国了。
技术人员是以下团队的一部分 亚马逊 致力于数据科学中一个具有挑战性的领域,即语音解缠。 这是一个棘手的问题,在人工智能发展浪潮中获得了新的相关性,研究人员相信语音和技术难题可以帮助人工智能驱动的设备、机器人和语音合成器更具对话性——也就是说,能够实现多种区域性的对话。口音。
解决语音问题不仅仅需要掌握词汇和语法。 说话者的音调、音色和口音常常赋予词语微妙的含义和情感分量。 语言学家将这种语言特征称为“韵律”,这是机器很难掌握的。
直到最近几年,得益于人工智能、计算机芯片和其他硬件的进步,研究人员在解决语音解缠问题、将计算机生成的语音转变为更悦耳的语音方面才取得了长足的进步。
此类工作最终可能会随着“生成式人工智能研究人员表示,这项技术使聊天机器人能够生成自己的响应。 聊天机器人喜欢 聊天GPT 有一天,巴德可能会完全按照用户的语音命令行事并进行口头响应。 与此同时,Alexa 和苹果 Siri 等语音助手将变得更具对话性,有可能重新点燃消费者对科技领域的兴趣。 看似停滞不前,分析师表示。
让 Alexa、Siri 和 Google Assistant 等语音助手讲多种语言是一个昂贵且漫长的过程。 科技公司聘请配音演员录制数百小时的语音,这有助于为数字助理创建合成声音。 被称为“文本到语音模型”的先进人工智能系统——因为它们将文本转换为听起来自然的合成语音—— 才刚刚开始精简 这个流程。
德意志银行研究部高级策略师马里昂·拉布尔表示,该技术“现在能够根据不同语言、口音和方言的文本输入创建人声和合成音频”。
在人工智能竞赛中,亚马逊一直面临着追赶微软和谷歌等竞争对手的压力。 四月,亚马逊首席执行官安迪·贾西 (Andy Jassy) 告诉华尔街分析师 该公司计划在复杂的生成人工智能的帮助下让 Alexa “更加主动和对话” 亚马逊 Alexa 首席科学家罗希特·普拉萨德 (Rohit Prasad) 告诉 CNBC 五月份,他将语音助手视为支持语音的“即时可用的个人人工智能”
经过九个月的理解爱尔兰口音和说出来的训练后,爱尔兰 Alexa 于 11 月首次亮相商业广告。
“口音与语言不同,”普拉萨德在接受采访时说。 人工智能技术必须学会将口音从语气和频率等其他语音部分中分离出来,然后才能复制当地方言的特性——例如,“a”可能更平淡,“t’s”发音更有力。
他说,这些系统必须找出这些模式,“这样你就可以合成一种全新的口音”。 “这很难。”
更困难的任务仍然是让这项技术能够从不同的语音模型中学习一种新的口音。 这就是 Cotescu 先生的团队在构建爱尔兰 Alexa 时所尝试的方法。 他们严重依赖现有的主要是英国英语口音的语音模型(美国、加拿大和澳大利亚口音的范围要小得多)来训练它说爱尔兰英语。
该团队应对爱尔兰英语的各种语言挑战。 例如,爱尔兰人倾向于去掉“th”中的“h”,将这些字母发音为硬“t”或“d”,使“bath”听起来像“bat”,甚至“bad”。 爱尔兰英语也带有刺音,这意味着“r”发音过度。 这意味着“party”中的“r”将比你从伦敦人嘴里听到的更清晰。 Alexa 必须学习并掌握这些语音特征。
科特斯库是罗马尼亚人,也是爱尔兰 Alexa 团队的首席研究员,他说爱尔兰英语“很难”。
近年来,支持 Alexa 语言技能的语音模型变得越来越先进。 2020 年,亚马逊研究人员教 Alexa 说一口流利的西班牙语 来自说英语的模型。
Cotescu 先生和团队将口音视为 Alexa 语音功能的下一个前沿领域。 他们设计的爱尔兰 Alexa 更多地依赖人工智能而不是演员来建立其语音模型。 因此,爱尔兰 Alexa 接受了相对较小的语料库的训练——配音演员用爱尔兰口音的英语背诵了 2000 句话的大约 24 小时的录音。
一开始,当亚马逊的研究人员将爱尔兰语录音输入仍在学习的爱尔兰语 Alexa 时,发生了一些奇怪的事情。
字母和音节偶尔会从响应中消失。 “S”有时会粘在一起。 一两个词,有时是至关重要的词,都莫名其妙地含糊不清,难以理解。 至少在一种情况下,Alexa 的女声降低了几个八度,听起来更加男性化。 更糟糕的是,这个男性声音听起来明显是英国人的声音,这种愚蠢的声音可能会让一些爱尔兰家庭感到惊讶。
“它们是大黑匣子,”亚马逊该项目的首席科学家、保加利亚人廷切夫先生在谈到这些语音模型时说道。 “你必须进行大量的实验来调整它们。”
这就是技术人员为纠正 Alexa 的“派对”失态所做的事情。 他们逐字逐句、逐个音素(单词中最小的可听得见的碎片)理清语音,以查明 Alexa 的失误并对其进行微调。 然后,他们向爱尔兰语 Alexa 的语音模型输入更多录制的语音数据来纠正发音错误。
结果:“party”中的“r”返回。 但随后“p”消失了。
于是数据科学家又经历了同样的过程。 他们最终将注意力集中在包含缺失的“p”的音素上。 然后他们进一步微调模型,使“p”声音返回并且“r”没有消失。 Alexa 终于学会了像都柏林人一样说话。
两位爱尔兰语言学家——在利默里克大学任教的伊莱恩·沃恩(Elaine Vaughan)和在都柏林三一学院语音学和语音实验室工作的博士生凯特·塔隆(Kate Tallon)——此后对爱尔兰 Alexa 的口音给予了高度评价。 他们说,爱尔兰语 Alexa 强调“r’s”并弱化“ts”的方式很突出,亚马逊整体上正确地处理了这种口音。
“对我来说,这听起来很真实,”塔伦女士说。
亚马逊的研究人员表示,他们对大部分积极的反馈感到满意。 他们的语音模型如此迅速地消除了爱尔兰口音,这让他们希望能够在其他地方复制口音。
“我们还计划将我们的方法扩展到英语以外的语言口音,”他们在一份报告中写道。 一月研究论文 关于爱尔兰 Alexa 项目。