音码语音识别:语音识别音码同步声纹分切系统
目前主流的语音识别系统,是将语音识别成汉字,会有以下几个问题:
一、一旦识别成汉字,对应语音原有的声音属性都会丢失。在后期的人工智能应用中,仍然需要对识别出的汉字进行人工标注,以区别相同词语的不同情绪和语境。
二、一些发音不准或者对应不上汉字的语音,常常会识别成错误的汉字。
三、有些语音特别是语气词、喘气声等,被忽略掉,以至于再合成语音时,失去了原有的语气和喘气特点。
四、现有的语音识别系统,识别出的汉字与语音声纹位置有错位,无法直接使用。
采用上海添力网络研发的音码取代汉字,可以很好地解决以上问题,主要表现是:
一、语音识别成音码,音码的信息量很大,可以包括该字词的元音、辅音、前后音的关系、音高、音强、音长、语速、在句中的位置等信息。这些信息足可以表现发音者的情绪和语境。
二、发音不准和没有汉字的语音,同样被识别成音码,可以很好地保留汉字无法传递的语音特点。
三、语音的一些喘气声、砸吧嘴声、语气词可以使用音码的特殊符号记录,可用于今后模仿真人的实际讲话效果,如口头禅、喘气声和砸吧嘴声。
四、音码语音识别系统是根据语音声纹特征进行识别,所以它识别出的词与词之间的界限是分明的,不会有错位现象。
主流语音识别系统识别的汉字与声纹位置错位
音码语音识别系统识别的汉字与声纹位置精确对应
音码语音识别系统的应用范围:
一、用于为音像文件建立语音搜索引擎;
二、用于人工智能行业的自动语音标注;
三、用于音频和视频的字幕同步生成;
四、用于声纹拼接语音合成系统的语音库建立。