科技前沿:智能大脑能看懂你的胡言乱语

2017-07-04 10:05:13  来源:每日科技网  编辑:

        【每日科技网】

 与传统做法不同,谷歌可以根据你想要的任意一种声音,即时进行傻瓜式重组——先收集简单的单词、短语和音素等素材,再通过复杂精细的软件运行,就能实现了。

 

而且,运用现在AI圈的深度学习算法,整个过程还能全自动化。也就是说,你可以通过这套程序定制化你的语音小助手了。

 

这就是谷歌Tacotron——一个完全由端到端的文本转语音合成模型。

 

Tacotron可以从未听见过某个词,却能仿佛跳舞一般轻松掌握复杂的发音,简直就是语音合成界的歌舞弗雷德•阿斯泰尔(Fred Astaire,弗雷德熟悉多种舞蹈动作,无需思考手脚就能运动自如)。

 

在处理韵律、语义消岐(如:现在时和过去时的“read”发音不同)和类似酒醉后打字的拼写错误(“这真真真的是太太棒了了了”)方面,Tacotron的表现同样泰然自若,令人称奇。

 

 

谷歌在技术报告中承认,拼接语音合成方面,苹果Siri其实比Tacotron更自然。但Siri拼接法单调、昂贵,而且用谷歌的话说,Siri涉及“不可靠的设计选择”。而据熟悉此研究的加州大学圣塔芭芭拉分校自然语言处理专家威廉•王(William Wang)透露,Tacotron正是为了规避这种不可靠性而设计的。王指出,手动编写一个语音合成器包含“大量非常主观多变的设计选择。”

 

以韵律为例,陈述句

 

“The quick brown fox jumps over the lazy dog.”

那只敏捷的棕色狐狸从懒惰的狗身上跳了过去。

 

问句

 

“Does the quick brown fox jump over the lazy dog?”

那只敏捷的棕色狐狸从懒惰的狗身上跳过去了吗?

 

两句话的自然发音区别归根结底就是语调的微妙变化。究竟如何将这种变化写成代码,编入软件之中呢?必须有人提前决定——其选择在某些句子中能够得出自然的韵律,但同样的选择放在其他句子里可能听起来就有点别扭了。

 

我们无法提前预知,也无法解释发生错误的原因,只能在系统多个成分中尽量采用手动编码。

 

 

Tacotron利用深度学习软件捕获所有决策过程,并实现其自动化。在自然程度上算不上:谷歌自家的技术WaveNet也通过深度学习合成语音,声称在质量方面能打败拼接软件。但Tacotron的速度胜过WaveNet,原理也更简单:据王所说,它“使用单一的神经网络结构”处理整个文本到语音的加工过程。因此,在谷歌与日俱增的文本与语音数据库中,Tacotron更容易训练。

 

一如既往,谷歌绝口不谈将Tacotron运用到现有产品的任何相关计划(研究人员没有回应媒体多次提出的采访要求,某发言人也拒绝评论)。

 

但如果将来有,酒醉的你发出一条迷糊、语无伦次的消息,就能够召唤谷歌的自动驾驶汽车,对方还能自然流畅地对话,听起来丝毫不像机器人,那大概就是Tacotron在发挥作用了。

免责声明:本文仅代表作者个人观点,与每日科技网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

本网站有部分内容均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,若因作品内容、知识产权、版权和其他问题,请及时提供相关证明等材料并与我们联系,本网站将在规定时间内给予删除等相关处理.

图片中心