音碼語(yǔ)音合成系統(tǒng)SCTS（Speech Code To Speech）

索引：610
發(fā)布時(shí)間：2023-07-03
點(diǎn)擊次數(shù)：
加入收藏
發(fā)表評(píng)論
語(yǔ)音閱讀

正如當(dāng)年“地心說(shuō)”統(tǒng)治人類達(dá)1300年之久，TTS（Text to Speech）技術(shù)也是目前語(yǔ)音合成的主流技術(shù)，但用文字作為媒介真的很合理嗎？盡管TTS技術(shù)近年來(lái)有了快速的發(fā)展，甚至接近于自然音，但也遭遇到了“地心說(shuō)”同樣的尷尬，就是當(dāng)年發(fā)表“地心說(shuō)”的托勒密不得不設(shè)計(jì)一個(gè)非常復(fù)雜的多輪結(jié)構(gòu)（本輪、均輪）來(lái)自圓其說(shuō)，但仍有誤差。同樣為了達(dá)到更好的語(yǔ)音合成效果，TTS技術(shù)也設(shè)計(jì)了非常復(fù)雜的情感模型、韻律模型等，雖然能接近自然音，但始終達(dá)不到自然音的效果。

問(wèn)題的關(guān)鍵就在于TTS技術(shù)一直把文字作為語(yǔ)音合成的核心，大大限制了語(yǔ)音合成技術(shù)的發(fā)展，比如“我們”這兩個(gè)漢字，在語(yǔ)音合成時(shí)，我們無(wú)法從文字上獲取聲音的信息，如：音高、音長(zhǎng)、音強(qiáng)等。還有一些口語(yǔ)化的語(yǔ)音，因?yàn)闆](méi)有對(duì)應(yīng)的漢字，更無(wú)法表達(dá)。如在評(píng)書(shū)里，形容重物掉在地上的“duang”的一聲，要比漢字里的象聲詞“咣”、“當(dāng)”顯得更重，卻因?yàn)闆](méi)有對(duì)應(yīng)的漢字，從而無(wú)法表達(dá)這樣的語(yǔ)音。更別說(shuō)我們?cè)诳谡Z(yǔ)中的換氣聲和咂巴嘴的聲音等。

基于對(duì)主流語(yǔ)音合成TTS技術(shù)的思考，上海添力網(wǎng)絡(luò)科技有限公司采用了不同的技術(shù)路線，稱為：音碼語(yǔ)音合成技術(shù)，簡(jiǎn)稱SCTS技術(shù)（Speech Code to Speech）。該技術(shù)正如“地心說(shuō)”統(tǒng)治1000年后的“日心說(shuō)”一樣，哥白尼用“日心說(shuō)”解釋太陽(yáng)和行星的運(yùn)行就特別簡(jiǎn)單、有效。用SCTS技術(shù)做語(yǔ)音合成，也同樣簡(jiǎn)單、有效。

首先我們?cè)诮⒛橙说恼Z(yǔ)音庫(kù)時(shí)，就會(huì)用語(yǔ)音識(shí)別系統(tǒng)生成音碼而不是文字，可以很好地保留該語(yǔ)音的聲音信息：音長(zhǎng)、音高、音強(qiáng)、前后音的關(guān)系等。在語(yǔ)音合成時(shí)，就可以根據(jù)音碼和語(yǔ)義，調(diào)用想要的語(yǔ)音。

SCTS技術(shù)一經(jīng)問(wèn)世，就展現(xiàn)了它獨(dú)特的優(yōu)勢(shì)：比如，如果讓一個(gè)失語(yǔ)者通過(guò)敲擊鍵盤來(lái)發(fā)音，采用TTS技術(shù)，該操作者必須先輸入漢字，然后由漢字轉(zhuǎn)成語(yǔ)音，效率低而且慢，也無(wú)法表達(dá)更豐富的情感。而采用SCTS技術(shù)，操作者直接輸入音碼，同步發(fā)音，效率高而且快，平均每分鐘發(fā)200個(gè)音，達(dá)到正常說(shuō)話的語(yǔ)速，而且可以表達(dá)更豐富的情感。

再比如，采用TTS技術(shù)合成一段語(yǔ)音，如果對(duì)某些發(fā)音不滿意，想換更好的語(yǔ)音來(lái)表達(dá)，是無(wú)法實(shí)現(xiàn)的，最多由機(jī)器幫你調(diào)個(gè)語(yǔ)調(diào)、音強(qiáng)、空隙等，這樣的結(jié)果也不自然。而采用SCTS技術(shù)合成一段語(yǔ)音，每個(gè)字詞都有至少幾十個(gè)自然音可供替換，基本滿足日常需要。
SCTS技術(shù)的兼容性和擴(kuò)容性非常強(qiáng)，只需要不斷地增加音碼的長(zhǎng)度，就可以把更多的語(yǔ)音信息保存，并在語(yǔ)音合成時(shí)表現(xiàn)出來(lái)，比如哭泣、高興時(shí)的語(yǔ)音，模仿老人和小孩講話的聲音等。

SCTS技術(shù)實(shí)現(xiàn)的目標(biāo)：人人都有自己的語(yǔ)音庫(kù)，人人都是中央播音員，人人都是單田芳

SCTS技術(shù)的應(yīng)用場(chǎng)景非常廣泛，主要應(yīng)用領(lǐng)域有：

一、為失語(yǔ)者提供發(fā)音輸入法，實(shí)現(xiàn)與普通人進(jìn)行語(yǔ)音交流；

二、建立人工可干預(yù)的語(yǔ)音播報(bào)或朗讀系統(tǒng)，真正實(shí)現(xiàn)“我的聲音我做主“；

三、采用音碼技術(shù)驅(qū)動(dòng)數(shù)字人，可以達(dá)到與真人同樣的驅(qū)動(dòng)效果；

四、低成本定制個(gè)性化語(yǔ)音庫(kù)，作為兒童教育、辦公機(jī)器人、陪伴機(jī)器人的語(yǔ)音；

五、輔助配音系統(tǒng)：部分甚至完全替代配音、評(píng)書(shū)、廣播劇的播講人和配音員；

六、與數(shù)字虛擬人合作，實(shí)現(xiàn)在元宇宙和游戲中的分身。

這就是創(chuàng)新SCTS語(yǔ)音合成技術(shù)，非TTS技術(shù)

音碼語(yǔ)音合成技術(shù)