真正的语音搜索引擎:音码语音检索系统
人类录制声音的历史已经有100多年了,特别是近几十年来,计算机技术的大发展,人类存储了海量的音像文件,如果从这些音像文件中寻找某个人讲过的话语,以现有的语音识别技术,可以这样操作:
1、 先将所有音像文件中的语音识别成文字;
2、 将识别出的文字建立检索索引系统;
3、 查找所需的汉字,再对应到相应的音频文件;
4、 调出该音频文件收听相应的语音段,确认是否为要找的语音;
5、 如果需要找一定发音特点的语音(如大喊大叫的、激动的、哭泣的),需要人工一个一个文件去听。
在整个过程中,有以下几个问题:
1、将音像中的语音识别成汉字,会丢失语音原有的一些信息:音高、音强、音长等,如果想找声音宏亮一些的语音,就需要调用一个一个音频文件,用人工去听;
2、汉字具有多音字或者是多字一音的特点,识别错误,会让一些文字检索不到或者是查找结果错误;
3、普通话发音只有400个音节,加上声调不超过1300个。而口语化的发音更丰富,比如形容重物掉地的声音“duang”,是没有对应的汉字。目前市场上的主流语音识别系统也不会识别出喘气声、砸吧嘴声、笑声之类的语音。所以只用汉字是无法记录丰富的口语化信息;
4、以这种方式建立的语音检索系统本质上还是文字检索系统,拿到的检索结果还是多个音像大文件,得一个一个文件去听,使用起来不方便;
5、如果查找的是一个常用词,比如某一个人说过的“我们”这两个字,可能的结果是成千上万个语音,这么多“我们”语音,其实有相当一部分的发音是一模一样的(音高、音长、音强基本一致),我们常人是分辨不出来的,这些语音可以合并,完全没有必要占用大量的存储资源,也可以简化搜索结果。以现有的语音技术做不到这一点。
正是因为建立在现有语音识别技术基础上的语音检索功能不足,才导致目前没有真正意义上的语音检索系统,而采用音码语音技术就能将以上问题得到很好地解决。
首先音码语音检索系统是这样一个流程:
1、先将所有音像文件中的语音识别成音码(音码的主要信息包括:每句话的语速、每个字词的准确发音以及音高、音强、音长、前后音的关系等信息);
2、再将含有音码的音像文件分割成以句为单位的小音频文件,并将语音特性一致的语句合并,减少存储量;
3、检索时,语音告诉系统需要查找什么样语音,或者是输入汉字,让系统转成音码进行查找;
4、找到相应的语音语句直接使用。
5、如果寻找一定发音特点的语音,只需要在查找条件里设定对应的声音信息。
采用音码语音检索系统有以下几个优点:
1、根据实际应用,寻找具有特定音调和情感的词语,而且不需要人工一个一个音频文件去听,通过音码信息,就能知道该发音的特点;
2、找到的语音可能汉字不同,但由于其发音相同,检索结果是一样的,比如“做一做”和“坐一坐”,这两个词汉字不同、意思不同,但发音相同,搜索结果里会一起出现;
3、音码采用的是音标注释发音,所以比常规的汉字能表达更为丰富的发音,如汉字没有的字、喘气声、砸吧嘴声、笑声之类的语音;
4、以这种方式建立的语音检索系统本质上是语音检索系统,不用绕道进行汉字检索,拿到的检索结果是多个语句语音文件,可以快速使用;
5、采用音码标注的语音文件,可以在语音要素相同的情况下(音高、音长、音强),自由替换整句或者字词,大大节省存储空间,这就好比用字库来存储文字一样。不同的语音就相当于不同的字库。
音码语音检索系统的应用范围:
1、 为音像档案部门建立语音检索系统
2、 自动建立个人自然语音音码库
3、 语音从业者的朗读辅助系统
4、 为音频和视频编辑提供丰富的语音素材
音码语音技术背景资料:
目前主流的语音技术,采用文字作为媒介,具体表现为:语音识别时,是将语音识别成文字,丢失声音信息,也无法识别非文字语音;语音合成时,将文字转语音(TTS技术),无法表达非文字的语音信息,也无法进行丰富的语音变换。
上海添力网络科技有限公司正是看到以文字为媒介的语音技术不足,研发了一套音码语音技术,这种新的编码方式可以很好地记录自然语音的丰富声音信息,在使用这些声音信息合成语音(SCTS技术)时,可以表达丰富的自然语音。
用音码取代文字建立的音像资料搜索引擎,具有直观、效率高、速度快的特点,是音码语音技术中重要的技术环节。