掘金2022:手游用户留存与高效转化秘籍
快出海  > 出海资讯  >  突破次元壁!Azure AI神经网络版定制声音全新体验

突破次元壁!Azure AI神经网络版定制声音全新体验

来源:微软科技
作者:微软科技
时间:2022-08-02
你是否曾经希望自己可以跳进最喜欢的动画片里,与兔八哥这样的银幕角色互动?

640 (2).png

你是否曾经希望自己可以跳进最喜欢的动画片里,与兔八哥这样的银幕角色互动?

欢迎光临AT&T达拉斯体验店,在这里,真人大小、高清分辨率的兔八哥会亲切地叫出您的名字,和您打招呼,告诉您他需要您帮他找出藏在店内的几根金胡萝卜。兔八哥能够按照您的指示在店内寻找胡萝卜,并与您实时聊天[1],而这一切都要得益于5G、增强现实(AR)、人工智能和基于微软Azure AI技术创建的神经网络版定制声音(Custom Neural Voice)。

兔八哥之所以能够自然流畅地与人对话,要得益于Azure认知服务中语音服务[2]的神经网络文本转语音功能,目前,这项功能已推出正式版本。

微软Azure AI平台[3]公司副总裁Eric Boyd表示:“我们从客户那里了解到,他们喜欢与用户进行语音沟通这个想法。多年来,语音服务发出的声音一直给人非常机械的感觉。而神经语音技术的应用将带来巨大飞跃,让声音听起来更加逼真自然。”

对于AT&T而言,沉浸式的兔八哥对话体验不仅可以愉悦顾客,而且可以借此机会展示其先进的5G蜂窝网络功能。在AT&T 5G蜂窝网络的助力下,兔八哥得以快速出现在高清画面中,并在店内无缝移动。

AT&T 5G产品和移动创新副总裁Jay Cary表示:“我们正在努力向消费者证明,5G网络有其与众不同之处,拥有着优于4G网络的性能。5G网络拥有巨大的计算能力、更快的传输速率和更低的时延。与兔八哥对话的体验,以一种令人惊叹的方式,将5G网络和技术的潜力发挥到了极致。”

兔八哥是AT&T使用神经网络版定制声音(Custom Neural Voice)赋予生命的第一个动画形象,但显然这不会是最后一个。在谈及未来各种可能性时,Cary不掩兴奋之情:未来,卡通形象可能会从麦片盒子中走出来,他们可以给你讲故事、陪你看动画片,甚至还可以和你一起在家附近转转。

他表示:“我们太喜欢这个将物理环境与虚拟环境相融合的创意了!”

Cary称,为了打造自定义语音,AT&T特别邀请兔八哥授权配音演员来到工作室,在微软团队的指导下,录制了约2000条短语和台词。

随后,华纳兄弟团队(Cary称他们为“兔八哥专家”)与微软团队合作,对这些声音进行反复研究和加工,确保这些声音能够准确反映出兔八哥的个性和语言特点。

Cary介绍道:“我们希望能够真实地复刻出兔八哥在现实世界中给人的感觉。兔八哥与顾客间的对话应该像是与朋友进行的一场自然、真实的对话,给人以非常逼真的感受。”

1 虚拟透明度

虽然与兔八哥的对话能够给人以真实的感受,但大家都知道这不是真的——因为兔八哥本身就是一个虚构的形象。这是一个很重要的区别,也是微软在技术应用过程中谨慎对待的一个方面。这同时也是神经网络版定制声音支持有限使用的一个关键原因——感兴趣的客户必须首先递交申请,在获得微软批准后方可使用该技术。“正式版本”指这项技术已经准备好商业化使用,可用于更多的Azure云区域,但并不对公众开放。

神经网络版定制声音大多使用虚构形象的声音,但有时,客户可能想要使用真实人物的声音,例如使用某位作家的声音来阅读他/她自己的书。即使在这种情况下,也必须提醒人们这里使用的声音是合成的声音,正是基于这样的考虑,微软在合同中加入了披露要求。

Azure AI认知服务负责任的AI负责人Sarah Bird表示:“我们要求客户明确披露这是一种合成语音,或者如果上下文表述不明时,要求客户必须以用户可感知的方式明确披露这是一种合成声音,不得将相关披露内容隐藏于条款之中。”

Progressive Insurance公司一直以来使用的品牌形象代言人Flo,是借助神经网络文本转语音技术获得生命的另一个虚构声音。

640 (3).png

为了让Flo对话机器人能够进行语音对话,Progressive Insurance公司使用神经网络版定制声音创建了一个合成语音。图片来源:Progressive Insurance公司

几年前,Progressive Insurance公司在Facebook Messenger推出了一款Flo对话机器人[4],这款机器人个性乐观开朗、俏皮可爱,而这个角色的原型正是2008年以来女演员Stephanie Courtney在电视广告中塑造的、深受人们喜爱的销售人员Flo。前进保险公司在开始探索使用语音对话方式与客户互动时,Flo自然而然成为首选。

Progressive Insurance公司并购体验部门技术和创新经理Matt White[5]表示:“我们希望自己的品牌和产品能够随时随地为人们所用,这也是我们非常感兴趣的一个领域。基于此,我们在Facebook Messenger推出了Flo对话机器人,并由此不断探索语音和智能对话机器人的各种可能性。”

White表示,Progressive Insurance公司已经在对话机器人中应用了Azure AI技术,在此基础上进一步应用神经网络文本转语音服务也是顺理成章的选择。

神经网络版定制声音的正式版本中包含技术控件,旨在防止该服务遭到滥用。客户在提交创建自定义语音使用的录音脚本时,必须随附配音人员的声明,声明其已知晓该技术,了解客户正在制作神经网络版定制声音。在客户开始训练语音之前,必须首先使用声纹识别技术对录音脚本和训练数据进行比较,以确保语音的匹配度。微软还在合同中规定,客户必须获得发音人的许可。

Boyd表示:“我们开展了大量研究,并与配音行业及领域内伦理学家进行了深入交流,最终形成了一套准则和方法,以确保该技术能够得到合规应用。”

2 负责人承诺

为防止这项技术被滥用,微软推出了三项举措,分别是:严格定义合同条款、授权客户有限使用、使用音频文件声纹识别。Sarah Bird在微软负责协助制定相关准则,并支持团队以负责任的方式研发Azure认知服务[6]相关功能和产品,并推动客户以负责任的方式使用这些功能和产品。

Bird表示:“我们非常地希望能够在展示这些技术带来的积极影响的同时,确保其不会给世界造成任何不良影响。”

为确定潜在风险,微软进行了多次影响评估。对于评估过程中确定的风险,微软会开发相应的功能和流程来解决这些问题。对于神经网络版定制声音,微软采取了如下保障措施:对每个潜在用例进行审查;制定《行为准则》;将发音人确认文件与训练音频文件进行比较识别等。

Bird表示,团队还在研究一种在合成语音中嵌入数字水印的方法,以表明该内容采用Azure神经网络版定制声音创建。

这些技术和政策性功能与微软负责任的AI承诺[7]相契合。承诺中包含透明度须知,其中清晰地阐明了AI系统的目的、功能和限制等。

Boyd表示:“作为创造者,我们有责任确保这项技术的负责任使用。我们非常重视负责任的AI;这是我们的一项核心原则。此外,我们也在非常谨慎地对待合作伙伴,以确保他们能够严格遵守各项指导方针。”

3 构建自定义语音

那么,一系列录制好的短语是如何成为一个高度自然的声音的呢?

首先,使用录音脚本来创建音色,或称音素。它有点类似于电脑上的字体,包含字母和字符,你可以将它们组合成不同的单词和句子。

但是,神经文本到语音的功能远远超出了将声音拼凑成单词的范围。

微软技术研究员、Azure AI认知服务首席技术官黄学东表示:“真正的技术突破在于高效利用深度学习技术来处理文本,以确保音韵和发音的准确性。其中,音韵指每个音素的音调和时长。我们将这些元素无缝地结合在一起,就能够重现发音人的声音。”

640.jpg

聆听由黄学东及其率领的微软团队创建的神经网络版定制声音演示。图片来源:Scott Eklund/Red Box Pictures

深度学习是机器学习[8]的一个技术分支。在机器学习中,机器被教导以类似于人类的方式进行学习和数据分析。“深度”指神经网络层的深度,灵感源自我们对大脑工作原理的了解。神经网络各层协同工作,可快速执行复杂的任务,将数据序列映射在一起,并从每项任务中进行学习。神经网络的层数越多,效果也越好。

在神经网络文本转语音技术中,一个神经网络负责将输入文本转换为声学序列,编码、解码和预测音韵,而另一个神经网络则负责将该声学序列转换为语音。两个神经网络之间大约有50层。

这两个神经网络可以同时预测正确的音韵并合成声音,因此,合成后的声音听起来更加自然。

当然,并不是所有人都需要专门为其打造自定义语音。为此,微软推出了400多种预置神经语音,支持140多种语言选择[9],可满足客户快速添加朗读功能或使对话机器人发声的需求。

4 释放人们的创造潜能

Bird表示,神经网络版定制声音从根本上而言是一项创造性的技术。这项技术最令她感到振奋的是其在教育领域开创的各项可能,例如阅读书籍、教授一门新的语言等。

微软与中国北京一家非营利性组织合作,使用神经网络版定制声音和志愿者团队提供的声音样本,生成了AI音频内容,并将其捐赠给北京红丹丹视障文化服务中心[10],该中心致力于为盲人和视障群体提供资源。

语言学习公司Duolingo正在使用神经网络版定制声音,在其学习平台中引入一组卡通角色,打造个性化语言学习服务。这9个各具特色的卡通角色包括Lily——一个情绪多变的冷面少年,以及Junior——一个聪明过头的早熟少年。

Duolingo公司对这些卡通角色进行了数百次迭代,希望这些角色能够在延续App主角Duo的视觉风格的同时,充分反映全球各地用户群的文化特色。

Duolingo首席技术官Severin Hacker表示:“Duolingo在全球范围内得到了广泛的应用,我们希望能够更好地增进用户与App间的联系和互动。”

640 (4).png

Duolingo使用神经网络版定制声音为语言学习平台上的9个新卡通角色注入活力。图片来源:Duolingo

在形态和其他设计方面,每个卡通角色都有其独立的个性,并且都或多或少地拥有与Duolingo吉祥物猫头鹰Duo相同的设计元素:独特的体型、分立的双脚、大眼睛和简单的形象设计。在大量的角色创造过程[11]中,赋予角色声音是最后一环。

Hacker表示:“在学习一门语言时,语音具有非常重要的作用。Duolingo作为一款语言学习App,必须能够为学习者提供真实的声音和口音氛围,而在微软神经网络版定制声音的帮助下,我们做到了这一点。”

Duolingo一直在与配音演员合作,为每个卡通角色创建自定义语音库。去年,其推出了Lily的英语和西班牙语配音版本,以及Junior的英语配音版本。后续,所有九个卡通角色都将推出英语、西班牙语、法语、德语和日语配音版本。今年晚些时候,语言学习者们还将听到新角色的声音,其中包括Bea——一位A型人格的世界旅行者,以及Vikram——一位尽责的丈夫、糕点师。

神经网络版定制声音还可以用来创建不直接模仿现有人物或角色的自定义音色。

Bird表示:“我们能够创造各种复合语音,并可以将各种最佳背景样本融合在一起,尝试创造出以往从未真实存在的声音。这是一项能够释放人们创造潜能的技术。”

Bird和Boyd认为,神经网络版定制声音将有助于促进娱乐、信息、教育等领域更深层次的互动。

Boyd表示:“AI最令人振奋的一点在于,人们永远可以开辟新的方式来应用这项技术,而令人惊叹的是,这些方式已远远超出我们对AI技术最初的设想。看到AI技术硕果累累的应用实践,我们感到无比地激动。”

顶部图片:在AT&T达拉斯体验店,顾客可以通过增强现实技术与兔八哥和其他色互动。兔八哥使用神经网络版定制声音创建的合成语音与客户对话,神经网络版定制声音是Azure认知服务的一项功能。乐一通(LOONEY TUNES)及所有相关角色和元素&华纳兄弟娱乐公司(s21)。

[1]https://www.youtube.com/watch?v=MkeI7Aaf7hk

[2]https://azure.microsoft.com/en-us/services/cognitive-services/text-to-speech/

[3]https://azure.microsoft.com/zh-cn/solutions/ai/

[4]https://news.microsoft.com/transform/flo-rise-ai-chatbots-progressive-sabre-ups/

[5]https://news.microsoft.com/transform/progressive-gives-voice-to-flos-chatbot-and-its-as-no-nonsense-and-reassuring-as-she-is/

[6]https://azure.microsoft.com/en-us/services/cognitive-services/

[7]https://blogs.microsoft.com/on-the-issues/2021/01/19/microsoft-responsible-ai-program/

[8]https://azure.microsoft.com/en-us/resources/cloud-computing-dictionary/what-is-machine-learning-platform/

[9]https://azure.microsoft.com/en-us/services/cognitive-services/text-to-speech/

[10]https://azure.microsoft.com/en-in/blog/creating-a-more-accessible-world-with-azure-ai/

[11]https://www.youtube.com/watch?v=m-3-D7S0piw&feature=youtu.be

↟点击阅读全文
版权说明

本文内容来自于微软科技,本站不拥有所有权,不承担相关法律责任。文章内容系作者个人观点,不代表快出海对观点赞同或支持。如有侵权,请联系管理员(zzx@kchuhai.com)删除!

相关文章
Meta将推出全程加密E2EE聊天消息备份
Meta将推出全程加密E2EE聊天消息备份
Meta本周宣布正在测试全程加密(end to end encryption,E2EE)聊天消息备份,允许用户必要时可以在另一台设备回复资料。该公司说这功能和近日涉及青少女因FB Messenger对话资料被用于起诉无关。
十轮网
10小时前
谷歌YouTube计划推出流媒体视频服务在线商店,已筹备至少18个月
谷歌YouTube计划推出流媒体视频服务在线商店,已筹备至少18个月
Alphabet旗下YouTube正计划推出流媒体视频服务在线商店。
长河
10小时前
飞天技术峰会:持续释放技术红利
飞天技术峰会:持续释放技术红利
今天,2022阿里云飞天技术峰会在深圳举行,会上宣布计算巢加速器、专属Region、无影架构等多款技术产品升级。同时,基于自研技术体系的计算效率优化,阿里云宣布,即日起针对部分ECS弹性计算实例调价,用户最多可省19%。
阿里云
3天前
【最新报告】《2022年餐饮美食应用移动市场报告》:如何应对成本意识强且时间紧张的用户需求?
【最新报告】《2022年餐饮美食应用移动市场报告》:如何应对成本意识强且时间紧张的用户需求?
我们最新的报告具备空前的精确度,可以精准诠释移动领域餐饮美食应用现状。在App IQ的支持下,我们深入地研究了7个子类别,包括:送餐和外卖、极速配送、杂货配送等。我们的《餐饮美食应用报告》揭示了在20个主要市场的餐饮美食App赛道取得成功所需的细微洞察。
dataai CN
3天前
敦煌网集团受邀出席全球跨境电子商务大会,指路海外社交电商新市场
敦煌网集团受邀出席全球跨境电子商务大会,指路海外社交电商新市场
8月9日,第六届全球跨境电子商务大会在河南郑州召开。敦煌网集团作为代表性跨境电商企业受邀出席,敦煌网全球用户营销中心副总裁王昕、敦煌网集团DHLink物流事业部负责人万松分别就跨境电商发展新趋势及行业人才培育输送等重要议题分享观点。
敦煌网
3天前
扫描关注获取更多 出海资讯 的相关信息
扫码登录
打开扫一扫, 关注公众号后查看更多
加载中
二维码已失效 请重试
刷新
账号登录/注册
小程序
公众号
商务合作
投稿采访
出海管家