問(wèn)題的關(guān)鍵就在于TTS技術(shù)一直把文字作為語(yǔ)音合成的核心,大大限制了語(yǔ)音合成技術(shù)的發(fā)展,比如“我們”這兩個(gè)漢字,在語(yǔ)音合成時(shí),我們無(wú)法從文字上獲取聲音的信息,如:音高、音長(zhǎng)、音強(qiáng)等。還有一些口語(yǔ)化的語(yǔ)音,因?yàn)闆](méi)有對(duì)應(yīng)的漢字,更無(wú)法表達(dá)。如在評(píng)書(shū)里,形容重物掉在地上的“duang”的一聲,要比漢字里的象聲詞“咣”、“當(dāng)”顯得更重,卻因?yàn)闆](méi)有對(duì)應(yīng)的漢字,從而無(wú)法表達(dá)這樣的語(yǔ)音。更別說(shuō)我們?cè)诳谡Z(yǔ)中的換氣聲和咂巴嘴的聲音等。
基于對(duì)主流語(yǔ)音合成TTS技術(shù)的思考,上海添力網(wǎng)絡(luò)科技有限公司采用了不同的技術(shù)路線,稱為:音碼語(yǔ)音合成技術(shù),簡(jiǎn)稱SCTS技術(shù)(Speech Code to Speech)。該技術(shù)正如“地心說(shuō)”統(tǒng)治1000年后的“日心說(shuō)”一樣,哥白尼用“日心說(shuō)”解釋太陽(yáng)和行星的運(yùn)行就特別簡(jiǎn)單、有效。用SCTS技術(shù)做語(yǔ)音合成,也同樣簡(jiǎn)單、有效。
首先我們?cè)诮⒛橙说恼Z(yǔ)音庫(kù)時(shí),就會(huì)用語(yǔ)音識(shí)別系統(tǒng)生成音碼而不是文字,可以很好地保留該語(yǔ)音的聲音信息:音長(zhǎng)、音高、音強(qiáng)、前后音的關(guān)系等。在語(yǔ)音合成時(shí),就可以根據(jù)音碼和語(yǔ)義,調(diào)用想要的語(yǔ)音。
SCTS技術(shù)一經(jīng)問(wèn)世,就展現(xiàn)了它獨(dú)特的優(yōu)勢(shì):比如,如果讓一個(gè)失語(yǔ)者通過(guò)敲擊鍵盤來(lái)發(fā)音,采用TTS技術(shù),該操作者必須先輸入漢字,然后由漢字轉(zhuǎn)成語(yǔ)音,效率低而且慢,也無(wú)法表達(dá)更豐富的情感。而采用SCTS技術(shù),操作者直接輸入音碼,同步發(fā)音,效率高而且快,平均每分鐘發(fā)200個(gè)音,達(dá)到正常說(shuō)話的語(yǔ)速,而且可以表達(dá)更豐富的情感。
再比如,采用TTS技術(shù)合成一段語(yǔ)音,如果對(duì)某些發(fā)音不滿意,想換更好的語(yǔ)音來(lái)表達(dá),是無(wú)法實(shí)現(xiàn)的,最多由機(jī)器幫你調(diào)個(gè)語(yǔ)調(diào)、音強(qiáng)、空隙等,這樣的結(jié)果也不自然。而采用SCTS技術(shù)合成一段語(yǔ)音,每個(gè)字詞都有至少幾十個(gè)自然音可供替換,基本滿足日常需要。
SCTS技術(shù)的兼容性和擴(kuò)容性非常強(qiáng),只需要不斷地增加音碼的長(zhǎng)度,就可以把更多的語(yǔ)音信息保存,并在語(yǔ)音合成時(shí)表現(xiàn)出來(lái),比如哭泣、高興時(shí)的語(yǔ)音,模仿老人和小孩講話的聲音等。
SCTS技術(shù)實(shí)現(xiàn)的目標(biāo):人人都有自己的語(yǔ)音庫(kù),人人都是中央播音員,人人都是單田芳
SCTS技術(shù)的應(yīng)用場(chǎng)景非常廣泛,主要應(yīng)用領(lǐng)域有:
一、為失語(yǔ)者提供發(fā)音輸入法,實(shí)現(xiàn)與普通人進(jìn)行語(yǔ)音交流;
二、建立人工可干預(yù)的語(yǔ)音播報(bào)或朗讀系統(tǒng),真正實(shí)現(xiàn)“我的聲音我做主“;
三、采用音碼技術(shù)驅(qū)動(dòng)數(shù)字人,可以達(dá)到與真人同樣的驅(qū)動(dòng)效果;
四、低成本定制個(gè)性化語(yǔ)音庫(kù),作為兒童教育、辦公機(jī)器人、陪伴機(jī)器人的語(yǔ)音;
五、輔助配音系統(tǒng):部分甚至完全替代配音、評(píng)書(shū)、廣播劇的播講人和配音員;
六、與數(shù)字虛擬人合作,實(shí)現(xiàn)在元宇宙和游戲中的分身。
這就是創(chuàng)新SCTS語(yǔ)音合成技術(shù),非TTS技術(shù)