语音合成定制：自然语音声纹拼接合成系统

据说一名优秀的语音从业者年收入可以达到八位数，但不管是播音员、播讲员还是配音员、声音主播等，再优秀的人也无法分身，把自己的生产力提升到好几倍，赚取更多的收入，一个人每天的工作时间顶多也就十几个小时，所以就算是年收入过千万，就算是想挣更多的钱，也无能为力。

而另一方面，一名长期从事语音播讲工作的专业人士，自己也清楚，常用的字词，可能已经播讲了N多遍了，就算是同一声音属性的词，也有几十到几千个相同的语音。后期播讲新的内容时，还需要把这些字词再讲N多遍，无非是这些字词语音进行新的排列组合。这些播讲者还有一个优势，就是手头上积累了大量的、同一录音棚环境下的语音音频文件，特别适合制作个人的语音合成数据库。

但采用市场上主流的TTS语音合成技术，订制一个人的专业语音数据库成本是非常高的，而且合成的自然度并不好。大家比较熟悉的合成语音就是高德导航里的林志颖合成音，听起来确实是林志颖的声音，但也确实像机器人讲话，缺少了真人的自然流畅感。

这是因为主流的TTS语音合成技术，语音库主要采集的是语音中的元音、辅音和声调，再用机器把它们合成字、词、句的发音，把这些字、词和句合在一起时，自然流畅度就会下降。为了弥补这一缺陷，不少语音合成系统中尽可能保留了语音采集资料中句、词的完整语音，但也是杯水车薪，主要的合成语音仍然是以机器合成音为主。

音码语音合成系统（SCTS技术）则不同，它是采用语音声纹拼接方法合成语音，所有语音都取自于原音，没有机器合成部分。首先在建立语音库时，保留的是原有语音音频文件的字、词和句的语音属性，如：元音、辅音和声调，还有前后音的关系，在句中的位置，语速，音强、音高和音长等信息。在合成时，只需要根据文字和播讲人想表达的意思和情感，选用适合的语音而已。比如常用词“我们”，对于某一位语音主播，可能已经讲了几千次，在建立该语音主播的语音库时，就把“我们”一词，根据前后音的关系，在句中的位置，语速，音强、音高和音长等属性进行分类建库。在合成时，先由机器根据文字的前后关系，自动调用最适合的语音，后续人工在试听时，可以根据需要优化，调换更为合适的语音。即我们称之为：可随时人工干预的语音合成系统。

自然语音声纹拼接合成系统由三个模块组成：

一、自动建语音库系统

二、自动语音合成系统

三、自然语音造词系统（该系统主要是针对个别没有语音的词，确实需要根据字词的发音习惯，以及元音、辅音、音调，用机器合成新词，但这样的合成仍然会比目前市场上的主流语音合成技术自然度高，因为这些元音、辅音仍然会带有一些属性：音高、音强和音长，以及前后音的关系、在句中的位置、语速等。所以造出的词语音丰富，满足不同场景的需要）

自然语音造词系统

自然语音声纹拼接合成系统的优势：

一、自然度高，合成语音都取自于原音，个别词需要机器合成；

二、采用音码语音技术，既能建立信息量更大的语音库，也能合成意思和情感更为丰富的语音；

三、播讲人所表现的语音更为丰富，有的无法用汉字表达，比如已故评书艺术家单田芳在形容一个重物掉在地上，用“duang-”这样的像声字，采用音码语音合成技术，就可以很好地建立这类词的语音库，也可以合成这类词的语音。

自然语音声纹拼接合成

自然语音声纹拼接合成系统的劣势：

一、需要大量的语音音频文件，才能建立完善的语音库；

二、需要在同一语境环境下录制的语音。

以上这两点，都决定了该系统主要适用于语音从业者，这两个劣势条件都能满足。

自然语音声纹拼接合成系统应用场景：

一、语音播讲辅助系统：一位语音主播开始播讲一本新书时，采用本系统边播讲边建立自己的自然语音库，其助手在校对音稿，修改语音错误时，就可以直接用语音库中的正确语音替换错误语音。一部书播讲三分之一或者一半时，语音库语料丰富后，后半部分的内容，其助理就可以根据文字内容和主播的风格，合成接下来的内容，只有个别特殊语音表现，或者是语音库没有的词、句，才需要播讲人亲自播讲。这样就可以将效率提升至少一倍。

二、为优秀甚至是已故播音员建立语音合成系统：这些人都有一个特点，就是手头上积累了大量的、同一录音棚环境下的语音音频文件，可以建立丰富的语音库，并为今后语音合成提供了丰富的语料。