本篇文章1292字,读完约3分钟

当电脑和人类交谈时,什么听起来最好?

这是六位ibm语言学家、工程师和营销人员在2009年面临的问题。当时,他们想为沃森公司的人工智能程序将文本转换成语音。18个月后,一个精心设计的发音诞生了,它听起来不那么人性化,也不像电影《2001年泰空漫游》中的哈尔9000那么冷漠。

赋予计算机“个性”是许多软件设计师正在做的事情。随着移动设备的普及,人们的手和眼睛已经不堪重负,迫切需要语音交互。

除了电脑和手机,许多机器都在学习听、理解和说话。汽车和玩具也增加了语音功能,甚至一些新的“家用电器”,如家庭伴侣机器人pepper和jibo,以及亚马逊的语音设备echo。在开发能够理解自然语言和响应人类语音命令的软件(通常称为“对话代理”)的过程中,一门新的设计科学——人机交互设计诞生了,但其艺术性往往强于科学性。

最适合计算机的声音 应该是什么样的?

然而,即使是用于天气预报和交通导航的简单句子也很难让计算机听起来和人类完全一样。大多数软件设计师承认,语音设计还没有达到“神秘谷”的水平。除了正确的发音,更大的挑战是给电脑语调和情感,即节奏。人工智能仍然不可能充分展示人类语言中丰富的情感。

有几种方法可以生成合成语音。最好的技术将使用人类的语言来生成一个不同说话方式的数据库。每个数据库都需要人类配音员进行数十到数百小时的录音。在电影《她》中最生动地反映了在电脑发音中加入情感的重要性和难度。主人公爱上了人工智能萨曼莎,他们通过声音交流。

电影《她》的剧照

现代语音合成技术的创始人是苏格兰计算机科学家艾伦·布莱克,他现在是卡内基·梅隆大学语言技术学院的教授。他认为,在巨大进步的背后,语音合成系统并不像人类那样完美,它们不能“带着情感说话”。

对于一些玩具产品公司来说,语音系统的不完善并不重要,因为他们的产品是用来娱乐和取悦用户的。但是对于那些用来与人类合作并成为工作伙伴的系统来说,这个困难是无法克服的。

Ibm最近发布了一则电视广告,其中出现了作曲家鲍勃·迪伦和沃森。在广告中,当沃森开始唱歌时,鲍勃·迪伦突然退出,因为人工智能程序的声音太可怕了。然而,ibm的目标是让系统变得不那么人性化,他们想要的声音不需要太人性化或太吓人。

然而,ibm研究院的研究员安迪·亚伦说,即使一个单词读得正确,“错误率仍然是我们最大的挑战。”该小组的一些成员花了一年多的时间创建了一个庞大的正确发音数据库,以使错误尽可能接近零。

Ibm还雇佣了25名配音人员寻找特殊的人声,并在此基础上为沃森开发了一种声音。在选择了最想要的声音后,ibm在许多方面进行了调整,甚至提高了频率,使声音听起来像个孩子。然而,这种人格的声音遭到了一致反对。

他们希望声音缓慢、稳定且“令人愉快”,整个过程让工程师的工作看起来更像艺术家。最后,虽然他们发出的声音知道是电脑发出的,但它透露出乐观和一点活力。

随着语音技术的发展,其应用将越来越广泛。以色列公司imperson过去开发娱乐性的对话角色,但现在正考虑向政治方向发展,例如,让虚拟候选人在社交平台上与公众互动。即使众所周知这是假的,与政治家的对话本身也会产生亲密感。

vianytimes

标题:最适合计算机的声音 应该是什么样的?

地址:http://www.j4f2.com/ydbxw/7733.html