真正的语音搜索引擎：音码语音检索系统

人类录制声音的历史已经有100多年了，特别是近几十年来，计算机技术的大发展，人类存储了海量的音像文件，如果从这些音像文件中寻找某个人讲过的话语，以现有的语音识别技术，可以这样操作：

1、先将所有音像文件中的语音识别成文字；

2、将识别出的文字建立检索索引系统；

3、查找所需的汉字，再对应到相应的音频文件；

4、调出该音频文件收听相应的语音段，确认是否为要找的语音；

5、如果需要找一定发音特点的语音（如大喊大叫的、激动的、哭泣的），需要人工一个一个文件去听。

在整个过程中，有以下几个问题：

1、将音像中的语音识别成汉字，会丢失语音原有的一些信息：音高、音强、音长等，如果想找声音宏亮一些的语音，就需要调用一个一个音频文件，用人工去听；

2、汉字具有多音字或者是多字一音的特点，识别错误，会让一些文字检索不到或者是查找结果错误；

3、普通话发音只有400个音节，加上声调不超过1300个。而口语化的发音更丰富，比如形容重物掉地的声音“duang”，是没有对应的汉字。目前市场上的主流语音识别系统也不会识别出喘气声、砸吧嘴声、笑声之类的语音。所以只用汉字是无法记录丰富的口语化信息；

4、以这种方式建立的语音检索系统本质上还是文字检索系统，拿到的检索结果还是多个音像大文件，得一个一个文件去听，使用起来不方便；

5、如果查找的是一个常用词，比如某一个人说过的“我们”这两个字，可能的结果是成千上万个语音，这么多“我们”语音，其实有相当一部分的发音是一模一样的（音高、音长、音强基本一致），我们常人是分辨不出来的，这些语音可以合并，完全没有必要占用大量的存储资源，也可以简化搜索结果。以现有的语音技术做不到这一点。

正是因为建立在现有语音识别技术基础上的语音检索功能不足，才导致目前没有真正意义上的语音检索系统，而采用音码语音技术就能将以上问题得到很好地解决。

首先音码语音检索系统是这样一个流程：

1、先将所有音像文件中的语音识别成音码（音码的主要信息包括：每句话的语速、每个字词的准确发音以及音高、音强、音长、前后音的关系等信息）；

2、再将含有音码的音像文件分割成以句为单位的小音频文件，并将语音特性一致的语句合并，减少存储量；

3、检索时，语音告诉系统需要查找什么样语音，或者是输入汉字，让系统转成音码进行查找；

4、找到相应的语音语句直接使用。

5、如果寻找一定发音特点的语音，只需要在查找条件里设定对应的声音信息。

采用音码语音检索系统有以下几个优点：

1、根据实际应用，寻找具有特定音调和情感的词语，而且不需要人工一个一个音频文件去听，通过音码信息，就能知道该发音的特点；

2、找到的语音可能汉字不同，但由于其发音相同，检索结果是一样的，比如“做一做”和“坐一坐”，这两个词汉字不同、意思不同，但发音相同，搜索结果里会一起出现；

3、音码采用的是音标注释发音，所以比常规的汉字能表达更为丰富的发音，如汉字没有的字、喘气声、砸吧嘴声、笑声之类的语音；

4、以这种方式建立的语音检索系统本质上是语音检索系统，不用绕道进行汉字检索，拿到的检索结果是多个语句语音文件，可以快速使用；

5、采用音码标注的语音文件，可以在语音要素相同的情况下（音高、音长、音强），自由替换整句或者字词，大大节省存储空间，这就好比用字库来存储文字一样。不同的语音就相当于不同的字库。

音码语音检索系统的应用范围：

1、为音像档案部门建立语音检索系统

2、自动建立个人自然语音音码库

3、语音从业者的朗读辅助系统

4、为音频和视频编辑提供丰富的语音素材

音码语音技术背景资料：

目前主流的语音技术，采用文字作为媒介，具体表现为：语音识别时，是将语音识别成文字，丢失声音信息，也无法识别非文字语音；语音合成时，将文字转语音（TTS技术），无法表达非文字的语音信息，也无法进行丰富的语音变换。

上海添力网络科技有限公司正是看到以文字为媒介的语音技术不足，研发了一套音码语音技术，这种新的编码方式可以很好地记录自然语音的丰富声音信息，在使用这些声音信息合成语音（SCTS技术）时，可以表达丰富的自然语音。

用音码取代文字建立的音像资料搜索引擎，具有直观、效率高、速度快的特点，是音码语音技术中重要的技术环节。