语音合成芯片技术的发展历程

发布日期：2015-04-07

语音合成芯片技术的发展历程可以分为3个阶段：

第一代嵌入式语音合成引擎(2000年)：单音节波形拼接技术：
单音节波形拼接技术是第一代语音合成技术。简单地说，单音节波形拼接技术就是预先将汉语发音中需要用到的1400多个音节全部录制下来，制作成一个音库。当合成文本时，根据每一个汉字的拼音从从音库中找到合适音节，然后拼接起来，这样就可以实现最简单的语音合成系统。但是采取这种技术合成出来的效果很难令人满意，是一字一顿的机械效果，语句连贯性很差，无法进行大规模应用。

第二代嵌入式语音合成引擎(2004年)：大语料库裁减技术
为了改进第一代语音合成技术，人们想到了大语料库的合成方法。在第一代合成技术中，人们没有考虑到每一个音节在不同语句环境下其实发音表现是有区别的，每个音节只有一个候选单元，拼接起来很生硬，因此造成了语句的不连贯性。
而在大语料库的合成方法中，为了解决不同情况下汉字的发音不同的问题，人们就将语料库进一步完善，将汉语音节在不同情况下的发音候选单元尽量多地保存在音库中，在合成时先进行韵律环境分析，然后从音库中挑选出最合适当前语境的音节候选单元进行拼接。因此音库尺寸越大，其包含的不同情况下的不同发音就越多，也就越贴近自然人的发音。目前，专业级的语音合成系统，如讯飞的电信级、服务级语音合成系统，均采用了大语料库甚至超大语料库的算法，每个音库的尺寸可以达到几个G的规模，理论上可以逼近原发音人的效果。
　　但在嵌入式环境，显然不可能容纳这么大的音库，必须进行裁减。这一代的嵌入式语音技术就是基于各种统计决策算法，从大语料库系统中挑选出最有代表性的若干音节并保存，裁减掉其他候选音节。从而一方面降低了系统尺寸，另一方面在一定程度上保证了较好的合成效果。
　　大语料库技术的缺陷在于，如果要不断提升合成效果，就只有不断增加语料库中音节候选单元的个数，相应地系统尺寸就不断增大。

第三代嵌入式语音合成引擎(2005年)：尺寸缩减，效果提升：
为了进一步改善合成效果，并且不受系统尺寸的限制，科大讯飞不断投入研发，进而发展到第三代语音合成技术。
这一代技术相比第二代又有了很大改进。主要体现如下：
首先，自然度得到提升，合成效果更好，更加具有实用性；
其次，合成时可调节范围更广，例如语速调节和语调调节等等；
第三，系统尺寸更小，处理器资源占用更少，更加适应嵌入式环境的应用。

第三代技术的发展，使得嵌入式语音合成效果得到大幅度提升，给嵌入式语音技术的大规模商业应用带来了契机，并且向人们昭示出了语音合成技术发展更加光明的前景。大家可以在讯飞语音电子书产品中，感受到第三代语音合成技术的效果，它也代表着目前世界最高水平的嵌入式中文语音合成技术的效果。