专利名称:以语音为基础的中文信息检索方法
技术领域:
本发明提供一种信息检索方法,尤指一种以语音为基础的中文信息检索方法。
背景技术:
由于因特网的普及,大量的信息迅速累积并广泛地被使用。因此,时空距离远近不再是人们存取与使用信息的最大障碍,取而代之的问题是缺乏有效率的方式在浩瀚的因特网中寻找想要的信息。信息检索技术(information retrieval technologies)因为能够提供使用者便捷的方式去存取与使用想要的信息,因此在近几年来格外地受到重视。直到现在为止,大部分信息检索的研究以文字型式的查询指令(text queries)去检索文字型式的信息为主,也就是做文字与文字间的比对,目前在这方面的研究与系统发展已有许多相当不错的成果。近年来更因为语音辨识技术的进展,开始有一些以整合信息检索和语音辨识技术的研究在进行。主要包括了三种不同的应用模式,亦即以语音型式的查询指令(speech queries)去检索文字型式的信息(textinformation)、以文字型式的查询指令(text queries)去检索语音型式的信息(speech information)和以语音型式的查询指令(speech queries)去检索语音型式的信息(speech information),上述这三种应用模式我们统称之为以语音为基础的信息检索(speech-based informationretrieval)。值得注意的是,传统文字型式以外的影音多媒体信息如广播、电视节目、数字博物馆等,逐渐大量地出现在因特网上,显然已成为文字信息以外非常重要的信息来源。在绝大部分的情况下,语音是这些多媒体信息最主要的组成成分。另一方面,由于轻薄短小的手持式设备(hand-held devices)像大哥大、PDA等盛行,原本在传统个人计算机上常使用的输入装置如鼠标、键盘等在这些新设备上不是已不复存在,就是不如以往那样地可以被方便使用,使得语音查询的功能变得更为受到重视。这些都是为什么以语音为基础的信息检索变得越来越重要的原因。可以想象在未来这种环境之下,人们可使用手持式设备以语音查询指令去检索多媒体信息(利用多媒体信息中的语音组成成分),将不再是一个可望而不可及的梦想了。当然,有时候使用者的查询指令或是要被检索的信息也可以是文字的形式。对于中文而言,由于中文不是用字母拼成的拼音语言,常用的中文字非常的多,使得中文的计算机输入即使在今天也一直是一个非常困难而且尚未完全解决的问题。因此,对于中文来说,发展以语音为基础的信息检索技术将会比其它语言来得重要而且更具吸引力。
与传统文字型式的信息检索不同的是,以语音为基础的信息检索并不能直接地拿输入的查询指令(queries)来与数据库中很多条信息记录(information records)一一来作比对。有很多条信息记录和输入的查询指令在题旨上可能是相关的,但是由于输入的查询指令(queries)与每一条信息记录(information records)彼此的用字遣词可能不同,或者是声学环境(acoustic conditions)、语者(speakers)、讲话的模式(speaking modes)和背景噪声(background noises)等的不同,使得处理上变得更加的困难。因此对于查询指令与信息记录而言,不管它们是以文字或是语音的形式存在,都必须先适当地转换成某种代表信息内涵的索引特征(indexing terms)以用来判断查询指令与信息记录之间的相关程度。因此,如何在词汇、主题与声学环境都充满不确定变异性的情况下能正确辨识中文语音进而从事语音信息检索,就是首要问题之所在。这些变异因素使得完全正确的语音辨识不可能达成,反而不可避免地产生一定程度的错误辨识结果。而为了克服这些错误的辨识结果所造成的影响,当然会使得本发明所提出的以语音为基础的信息检索技术与传统的文字型式的信息检索(所有文字都是正确的)截然不同,而必须要具备了相当程度的强健性(robustness)才可以。
中文的以语音为基础的信息检索第二个主要问题,便是要选择适当的索引特征(indexing terms)来同时描述使用者查询指令及所要查询的每一条信息记录,使得它们彼此间的相关性在检索过程中可以很容易地被评估出来。索引特征的选择主要有两种作法一种是仅以关键词(Keyword)作为索引基础(keyword-based approach),另一种则是以所有的词汇作为索引基础(word-based approach)。对于前者仅以关键词作为索引基础的方法,必须事先为要被检索的每一条信息记录定义好一组关键词(keywords),再从使用者输入的查询指令中撷取出可能的关键词,这样一来,含有与查询指令相同或相关的关键词之信息记录就可以检索出来。这种方法非常简易,尤其是对于检索相对静态(static)的信息记录,因为主要可供搜寻的关键词并不会经常改变。然而就算事前已经知道了要被检索的信息记录的内容,如何为它们定义一组完善的关键词组却并不是一件非常容易的事。尤其在因特网的环境下,信息记录是每天持续不断在累积改变并非全然静态的,使用先前定义好的关键词组几乎不可能满足这样的检索需求,不管定义的关键词组多大,遗漏关键词的情况总是一定会发生。有了这一考虑后,很自然地会想到以所有的词汇当为索引的作法。当使用者查询指令与所有的信息记录都被完整的以文字表示后(可能以中文的字或词的方式呈现,查询指令与信息记录两者都可以是经由语音辨识技术产生的),许多已发展很好的文字型式的信息检索技术就可以直接地使用。然而,即使是采用这种以所有的词汇当作索引特征的作法,词典外词汇(Out-of-vocabulary,亦即用了不少语音辨识器的词典中所没有的词,语音辨识器一定辨识不出来)的发生仍会是一个问题。因为大词汇语音辨识器中通常需要一个事先定义好的词典,但有些对于信息检索而言是特别重要的关键词,可能因为没有被包括在这个词典里而没有办法被辨识出,这对中文来说是确实存在的问题,将在下一节详细说明这个问题。这个问题因而引出直接在比“词”更小的层次上比对查询指令及信息记录的相关性的概念。因为,在这种情况下,并不一定需要有“词”这一层次,语音信息检索也就不会受限于语音辨识辞典大小的影响。
发明内容
在本发明中,考虑中文单音节结构(monosyllabic structure)特性,发展出一系列以音节(syllable)的统计特性为基础的索引特征(indexing terms)来从事中文的以语音为基础的信息检索,并验证了这一系列以音节为基础的索引特征在检索表现上的确具有极强的鉴别能力。同时,也进一步融合了以中文的字与词为基础的索引特征并发展出若干特别的处理方法来增强上述这些索引特征在检索上的表现。
本发明提供一种中文信息检索方法,包含输入描述所欲查询信息之语音或文字查询指令;决定一种索引特征;及利用该索引特征检索所欲查询之以语音或文字型式呈现的信息记录,其中该索引特征为具有一特定长度的重叠音节片段,且该特定长度可任意指定且至少为一。
本发明还提供一种以语音为基础的中文信息检索方法,包含输入描述所欲查询信息之语音或文字查询指令;决定一种索引特征;及利用该索引特征检索所欲查询之以语音或文字型式呈现的信息记录,其中该索引特征为一间隔至少一音节的双音节。
以下结合附图进一步说明本发明的实施例。
图1为以音节序列S1S2S3......S10为例的各种音节层次的索引特征示意图;图2为本发明一实施例的流程图。
本发明的
具体实施方式
I.使用音节层次统计特性的理由在中文里是一字一音,每个字(至少有一万个以上的常用字)都是发一个单音节(monosyllable)的音。中文有一大特色,即是每天都很容易有新词产生,新词通常是由一到数个字或者音节结合而成。例如,由“电”与“脑”这两个字的结合形成了一个新词“计算机”,由“股”、“市”、“长”和“红”这四个字结合可形成了一个金融交易上的新词“股市长红”。在大部分的情况下,这些新词的语意多少都跟构成它们的字有关。另外许多专有名词像人名、组织名、地名及特定领域的术语等也都是会随时产生的新词,就如同上面所举的例子一样。因为这些新词都带有特定的关键的语意,足以描述或分辨不同的主题对象,所以在信息检索功能上往往都是常会被用来查询的重要词汇。但是在绝大多数的情况下,这些对于检索而言非常重要的词汇却常常完全没有包含在语音辨识器的词典里。因此在从事以语音为基础的中文信息检索时,词典外词汇(out-of-vocabulary)发生的情况特别的严重,这也就是为什么本发明以音节层次的统计特性(syllable-level statistical characteristics)的索引特征来解决这些在信息检索常发生的问题是有道理的。换句话来说,在中文里适当的音节组合可以代表发相同音之对应字组合的语意,而这些音节组合来当作索引特征,就可避免信息检索时需以词当作索引特征时会遭遇的词典外词汇问题。
事实上,中文具有独特的一字一音节的发音结构,使得以音节层次信息(syllable-level information)来从事以语音为基础的中文信息检索,的确有其非常重要的意义。虽说中文的常用字至少有一万个以上,但由于中文独特的一字一音节结构特性,以及许多截然不同语意的字可对应到同一个音节,使得中文的音节数目仅有1,345个。由于每个词是由一到数个字(或音节)所组合而成,于是这1,345个音节就可以组合成无限多个中文的词。也就是说,虽说每个音节是对应到许多含不同语意的字,然而由数个特定的音节组合在一起却常仅产生唯一的多音节词(polysyllabic words),或偶而有极少的同音多音节词(如程式、城市)。因此,若在从事信息检索时以数个音节组合成的片段为特征来比较输入的查询指令与被检索的信息记录,将可以提供非常好的检索评估依据。
另一方面,采用音节层次信息(syllable-level information)来从事信息检索其实还存在有许多的重要原因。在中文里,几乎每个字都是一个本身具有语意的词素(morpheme),在语言上可以有相当独立的角色。所以,由数个字构成词时,构词往往非常有弹性。举例来说,在多数的情况下,描述相同或相似概念的词可能仅有其中的一两个字是不同的,其余的字都是相同的。譬如“中华文化”和“中国文化”是描述相同的语意,但是它们的第二个字是不同的。另一个可以观察到的现象是在中文里,一个长词可以随意地缩写成较短的词,譬如保留“国家科学委员会”的第一个、第三个以及最后一个字就可以缩写成“国科会”。再者,时常一个由外国语言引入的词(exotic word)根据它的发音可以翻译成不同的词,例如“Kosovo”可以翻译成“科索沃/ke1-suo3-wo4/”、“柯索佛/ke1-suo3-fo2/”、“克索夫/ke1-suo3-fu1/”、“科索伏/ke1-suo3-fu2/”、“科索佛/ke1-suo3-fo2/”等等,但这些经翻译过的词通常都含有一些音节是或者全部的音节都是相同的。为此,一个智能型的检索系统必须要能够处理中文弹性的构词现象,当查询指令与被检索的信息记录有不同的词却描述近似的语意时,相关的信息记录还是可以被成功地检索出来。直接在音节层次比对语音查询指令与语音信息纪录的相关性的确可以在某种程度上解决上述中文弹性构词问题,因为在检索的过程中“词”并不一定需要被辨识出来,而且不同形式的词若是描述相同或相关概念,常都含有一些相同的音节。
II.核心技术A.音节层次索引特征(Syllable-level Indexing Terms)本发明提供了一系列以音节(syllable)为基础的索引特征,包括了以不同长度的重叠音节片段(overlapping syllable segments withlength N,S(N),N=1,2,3,4,5,...)及间隔若干音节的双音节(syllablepairs separated by a few syllables,PS(n),n=1,2,3,4,...)为索引特征的技术。以一个长度为10的音节序列(a syllable sequence of 10 syllables S1S2S3....S10)为例,前者(不同长度的重叠音节片段)列在图1的上半部,后者(间隔若干音节之双音节)则列于图1的下半部。例如长度为3的重叠音节片段(S(N),N=3)包括了音节片段(S1S2S3)、(S2S3S4)、(S3S4S5)等等,间隔一个音节之双音节(PS(n),n=1)有(S1S3),(S2S4),(S3S5)等等。考虑中文语言的结构性特征,上述这些音节层次的索引特征的确是在检索过程中是有意义的。如同上面所提及的,每一个音节其实代表(对应)许多不同语意的字,而且若两个词代表相似或相关的概念,经常它们的组成音节中有一些是相同的,即使当中有的词是属于词典外词汇,语音辨识器无法辨识出来。因此以长度为1的音节片段(S(N),N=1)来作为索引单位,在检索上是有其道理的。然而,由于每一个音节同时对应到许多代表不同语意的同音字,如果仅用长度为1的音节片段(S(N),N=1)来作索引,在检索时必定会发生严重的混淆问题,因此必须要再结合其它的索引特征才行。事实上,在中文5,000个最常用的多音节词里(polysyllabic words)约百分之九十以上的词是双音节词,也就是说它们是发两个音节的音。所以,以长度为2的音节片段(S(N),N=2)来作为索引特征绝对所以,以长度为2的音节片段(S(N),N=2)来作为索引特征绝对会保有大多数语言上的信息,在检索上成为重要索引特征是有其道理的。同样地,如果长度较长的音节片段如长度为3的音节片段(S(N),N=3)在检索比对时同时出现在查询指令与被检索的信息记录中时,与查询指令有关的重要信息便可以更精确地被撷取出。另一方面,就上述中文构词之弹性而言,以间隔若干音节之双音节来当作索引特征在检索上是会有帮助的。就以前述所举的例子来说,“国家科学委员会”这个词可以被缩写或念成“国科会”,仅包括了原来的第一个、第三个以及最后一个音节,因此本发明所提出的以间隔若干音节的双音节(syllable pairs separated by n syllables)为索引的方法就明显地可以解决这个问题。再者,由于在中文语音辨识过程中常有音节的取代(substitution,亦即一个音节被辨识成另一个音节)、插入(insertion,亦即在两个相连的音节中间,辨识的结果会多出一个不存在的音节)以及删除(deletion,亦即一个明明存在的音节在辨识时被丢掉)等错误的发生,本发明所提出的以间隔若干音节之双音节为索引(syllable pairs separated by n syllables)的方法也同样地可以降低这些语音辨识错误在检索上的影响。总而言之,单音节(monosyllables)所形成的索引特征其实代表着某些具有语意的字,也可以或多或少地解决中文的词典外词汇的问题。而不同语意的同音字对应到相同音节所产生的混淆问题,也可以由长度大于1的重叠音节片段(overlapping syllable segments with length N,N>1)以及间隔若干音节之双音节(syllable pairs separated by n syllables)所形成的索引特征来区分出不同的语意信息。重叠音节片段为索引特征可以代表多音节词或词组(polysyllabic words or phrases)的信息,对于检索来说是非常重要的;间隔若干音节的双音节为索引单位可以在某种程度上解决中文弹性构词问题如缩写等,以及降低语音辨识产生的取代、插入以及删除等错误所造成的影响。
当定义好上述一系列以音节(syllable)为基础的索引特征后,对于每一项语音查询指令与每一条语音记录都经语音辨识产生对应的音节格状组(syllable-lattice)。在这音节格状组中,每个一个音节的语音段落,都储存着许多的候选音节(syllable candidates),这是为了克服语音辨识的不确定性,多保留一些候选音节可以确保正确音节没有流失。同时,每个一个候选音节都存有经语音辨识过程产生的声学辨识分数,而对于上述的每一音节组合所形成的索引特征,索引特征的分数就是由它们个别的组成音节的声学辨识分数平均而得。若查询指令或信息记录中的任一个是文字型式,则该索引特征的分数就由其在文字型式的查询指令或文字型式的信息记录中出现的次数来替代。
有了本发明的一系列以音节为基础的索引特征用来描述语音查询指令与每一条语音记录,则目前许多常在文字型式的信息检索(text-based information retrieval)系统使用的信息检索模型(informationretrieval models)也都同样地可以拿来用在以语音为基础的信息检索中使用。就以最常用在文字型式的信息检索的向量空间模型(vectorspace model,这是所有做文字型式的信息检索的人都熟知的技术)来说,在这个模型下,不论信息纪录与查询指令是文字型式或是语音型式,都可以设计一组特征向量来描述它们,其中的每一个向量分量(component)代表某一类以音节为基础的索引特征在检索时对应的信息。举例来说,若使用本发明所提出的各类音节层次的索引特征中的9类加以组合(S(N),N=1~5,和Ps(n),n=1~4),就一共可以用9个特征向量来代表每一条信息纪录与每一项查询指令。而信息纪录与查询指令间的相关性就以查询指令及每一条信息记录的这9个特征向量的个别比对结果的加权和来评估,就似传统文字型式的信息检索的处理过程是完全一样的。
B.音节、字与词三个层次的信息的融合(Fusion of Syllable-,Character-And Word-Level Information)虽然上述以音节组合为基础的索引特征已经可以在以语音为基础的中文信息检索(speech-based information retrieval for MandarinChinese)中提供非常强的鉴别能力,字与词层次上的信息却也可以带来不少音节所没有的额外知识。例如,同音字对应到相同音节所衍生的混淆问题可由字层次上的信息来解决,词则具有较音节更为完整的语意信息。但另一方面,以字或词组合为索引特征在以语音为基础的信息检索中会带有较多的语音辨识错误,尤其是因词典外词汇引起的辨识错误。因此适当地融合音节、字与词这三种不同层次的信息,自然就会对于以语音为基础的中文信息检索会有所帮助。就如同前述的音节层次的索引特征,字与词层次的索引特征也可以经由同样的方式产生,譬如不同长度的重叠字片段或重叠词片段(C(N),N=1,2,3,4,5,...,和W(N),N=1,2,3,4,5,...)和间隔若干字或词之双字或双词(PC(N),N=1,2,3,4,...,和PW(N),N=1,2,3,4,...)。如此一来,查询指令与信息记录间的相关程度就可以用上述音节、字与词这三种层次的索引特征个别的特征向量相关性比对结果的加权和来评估。
C.由数据库导引的索引特征(Data-Driven Indexing Terms)上述以不同长度的重叠音节片段(overlapping syllable segmentswith length N,S(N),N=1,2,3,4,5,...),字片段或词片段为索引特征的方式,效果虽好,但因这些索引特征的总数庞大,对计算量及内存容量的需求极大,实际制作时之软硬件代价较高。改进的方法,可以进一步利用统计的方法,用计算机程序自动地从数据库(例如所有被检索的信息记录所形成之集合等)中寻找结合性强且语意完整的音节片段(或字片段、词片段)为真正使用的索引特征,而把语意不完整的音节片段(或字片段、词片段)全部删除。例如音节片段或字片段“柬埔寨/jian3-pu3-zhai4/”(S(N)或C(N),N=3)会被选为真正使用的索引特征,而音节片段或字片段“柬埔/jian3-pu3/”及“埔寨特征,而音节片段或字片段“柬埔/jian3-pu3/”及“埔寨/pu3-zhai4/”(S(N)或C(N),N=2)等则会因语意不完整,自动地被删除。这种由数据库导引(data-driven)概念下所挑选出来的索引特征,不仅可以达到非常精简的索引特征总数,而且其检索的效能也会大幅地提高。此概念相同适用于音节、字及词三个层次的索引特征。以词片段举例,“布什总统”是“布什”及“总统”二个词所构成的语意完整的双词片段,是很好的索引特征,但“总统前往”是“总统”和“前往”两个词,但连起来其语意并不完整,不是一个很有意义的双词片段,在检索时实际意义不大,则可删除。这种由数据库导引的索引特征(data-driven indexing terms)之产生方法,以音节层次的索引特征为例,可由全体长度为1的音节片段(S(N),N=1)开始,以由下而上(bottom-up)的方式,选定结合性强,适于结合的相连音节片段,一一予以两两相连形成长度较大的(N=2,3等)新的音节片段,结合的依据取决于任意两个在数据库(例如所有被检索的信息记录所构成的集合等)中相连的音节片段在整个数据库中的某些统计数值,例如他们彼此间的相互信息量(mutual information)及语言模型参数(languagemodel parameter)等相当程度代表其结合性的统计数值,或其它类似的统计数值,再对不同长度的索引特征给予不同的阀值d0设定。当两个相连的音节片段的某些统计数值大于阀值d0时,便可把他们结合在一起以形成新的音节片段。此一产生步骤可用计算机程序反复进行若干次,直到没有任何相连的音节片段的这些统计数值超过阀值为止。同样的方法也适用于产生由数据库导引的结合性强且语意完整的字片段或词片段等等。
D.音节层次的声音确认(Syllable-level Utterance Verification)当在音节格状组(syllable-lattice)中,每个一个音节的语音段落所储存的候选音节数目由1增加到m时,则重叠音节片段(overlappingsyllable segments with length N,S(N),N=1,2,3,4,5,...)及间隔若干音节的双音节(syllable pairs separated by a few syllables,PS(n),n=1,2,3,4,...)的索引特征数目就会分别增加到mN与m2倍之多。虽说它们之中可能会有一个重叠音节片段或者间隔若干音节之双音节会是完全正确并因此可以提供适当的检索信息,但其余的mN-1或m2-1个索引特征都包含有一个以上的错误音节,因此不可避免地产生错误的索引特征,造成检索过程中的干扰。音节层次的声音确认技术于是可以在这里使用,以降低错误索引组合的数目。基本的作法是任何候选音节若其声学辨识分数低于某个事先设定的阀值(pre-assignedthreshold)时,其产生的索引特征就可以被删除。可以在建立索引特征时,对每一类索引特征给不同的阀值的设定。
E.低频索引特征的删除(Deletion of Low Frequency IndexingTerms)可以假设语音辨识结果中含有出现频率较低的音节组合之处经常较有可能含有辨识错误,所以在索引特征产生过程中,某一索引特征若含有极低频率的音节组合成分时,便可予以删除。因此在本发明中,索引特征的统计分布可以用来作为另一种索引特征删减的依据。上述的重叠音节片段(overlapping syllable segments with lengthN,(S(N),N=1,2,3,4,5,...)及间隔若干音节的双音节(syllable pairsseparated by a few syllables,PS(n),n=1,2,3,4,...)等每一索引特征的统计分布,便可以用来作为索引特征删减的依据。就举长度为2的重叠音节片段(S(N),N=2)为例,若一个由两个音节组合成的音节片段(sk,sj)其出现次数小于一个事先决定的阀值r0时,便可删除它以增进检索的效能。同样地,对每一类索引特征可以给不同的阀值的设定。
F.极高频索引特征的删除(Deletion of Stop Terms)当产生音节、字与词的索引特征时,可针对个别索引特征的文件倒数频率(Inverse Document Frequency,IDF,这是一般文字型式的信息检索常用的参数)或其它类似的参数为基础,建立极高频索引特征列表(stop term list)。这些是最不具鉴别能力的索引特征。例如“的”“是”这两个单字或单音节大量出现在每一条信息记录中,故完全没有索引功能。因此对于每一类音节索引特征,例如重叠音节片段(overlapping syllable segments with length N,S(N),N=1~5)及间隔若干音节之双音节(syllable pairs separated by a few syllables,S(N),N=1~5)等,都可建立一个极高频索引列表,并在产生索引特征时把每一类索引特征里出现在极高频索引列表中的前M个最常出现的索引特征(亦即IDF值较低者等等)从特征向量中删除。这里M的值亦可以依每一类索引特征而设定。
G.自动相关回授(Automatic Relevance Feedback)在检索的过程中使用者往往未必能一句话就说出最正确的查询指令,有时某些对检索目的而言是极重要的检索的线索的索引特征并没有出现在使用者的查询指令中,导致在第一次检索时并不一定能完全检索到想要的信息纪录。此时,在第一次检索时找到的相关或不相关信息记录(relevant or irrelevant information records)可以用来自动进行第二次检索,进一步确认使用者实际上真正想要寻找的信息为何。自动化相关回授就是把第一次检索到的,可能是使用者想要的相关信息记录中常出现的索引特征加入使用者的初始查询指令的特征向量中,或将在第一次检索中认为不相关的信息记录中常出现的索引特征从使用者的初始查询指令的特征向量中删除,再以所产生的新的查询指令特征向量来从事第二次的检索,通常均可增进检索的准确性。
H.索引特征关连矩阵(Term Association Matrix)如果两个索引特征常常同时出现(co-occurring)在相同的信息纪录或段落(information records or passages)中,往往可能是共同用来描述某个特定的事件、领域或主题的,因此彼此之间可能存在某种程度上的同义关连性(synonymity association)。基于这样的假设,可以从要被检索的信息记录所形成的集合中,为每一类的索引特征建立起一个索引特征关连矩阵,在此关连矩阵中每一个元素a(m,n)代表着任两个索引特征tm和tn同时出现在相同信息纪录或段落的频率统计特性,因此也代表着这两个索引特征之间的某种关连性。例如,若关连矩阵中某一个元素a(m,n)的值为1,可能代表着索引特征tm和tn总是同时出现在相同的信息纪录或段落中,因此一定有非常高的同义关连性;若关连矩阵中某一个元素a(m,n)的值为0,可能代表着索引特征tm和tn从来没有同时出现在相同的信息纪录或段落中,故可能是毫无关系的。于是,我们便可以把与使用者的初始查询指令中的索引特征的同义关连性最大的L个索引特征加入查询指令的特征向量中,以形成新的使用者查询指令特征向量。L值的大小可因不同类的索引特征而异。
请参照图2,图2为本发明一实施例的流程图。其中结合了上述以不同长度的重叠音节/字/词片段或相隔若干音节/字/词之双音节/字/词的方法进行检索、由数据库导引的索引特征抽取方法、经由音节层次的声音确认、索引特征关连矩阵、低频索引删除与极高频索引删除、同时融合音节/字/词索引特征及自动相关回授,完成本发明之以语音为基础的中文信息检索。
以上所述仅为本发明的较佳实施例,凡对本发明的权利要求的技术方案所做的等效变化与修饰,皆应属本发明之涵盖范围。
权利要求
1.一种中文信息检索方法,包含输入描述所欲查询信息之语音或文字查询指令;决定一种索引特征;及利用该索引特征检索所欲查询之以语音或文字型式呈现的信息记录,其中该索引特征为具有一特定长度的重叠音节片段,且该特定长度可任意指定且至少为一。
2.如权利要求1所述的中文信息检索方法,其中该特定长度为二。
3.如权利要求1所述的中文信息检索方法,其中该特定长度为三。
4.一种以语音为基础的中文信息检索方法,包含输入描述所欲查询信息之语音或文字查询指令;决定一种索引特征;及利用该索引特征检索所欲查询之以语音或文字型式呈现的信息记录,其中该索引特征为一间隔至少一音节的双音节。
5.如权利要求1所述的中文信息检索方法,其中该索引特征为具有一特定长度的重叠字片段,且该特定长度可任意指定且至少为一。
6.如权利要求1所述的中文信息检索方法,其中该索引特征为具有一特定长度的重叠词片段,且该特定长度可任意指定且至少为一。
7.如权利要求4所述的中文信息检索方法,其中该索引特征为一间隔若干字的双字。
8.如权利要求4所述的中文信息检索方法,其中该索引特征为一间隔若干词的双词。
9.如权利要求1、4、5、6、7或8之任一项所述的中文信息检索方法,其中该索引特征可经选定为不只一种。
10.如权利要求1、4、5、6、7或8之任一项所述的中文信息检索方法,其中该索引特征可由重叠音节片段、双音节、重叠字片段、重叠词片段、双字及双词所组成之群组中选定一种或多种。
11.如权利要求1、4、5、6、7或8之任一项所述的中文信息检索方法,其中该索引特征决定后,该中文信息检索方法另包含辨识语音查询指令中每一音节、字或词之语音段落产生不止一个候选音节、字或词,以建立对应之音节、字或词格状组;及辨识语音信息记录中每一音节、字或词之语音段落产生不止一个候选音节、字或词,以产生对应之音节、字或词格状组;其中该音节、字或词格状组中之各候选音节、字或词包含有经语音辨识产生的一声学辨识分数。
12.如权利要求11所述的中文信息检索方法,其中该索引特征另包含有一分数,且该分数系由该索引特征所包含的所有候选音节、字或词之声学辨识分数平均而得。
13.如权利要求1、4、5、6、7或8之任一项所述的中文信息检索方法,其中以语音为基础之中文信息检索系包含有以语音型式的查询指令检索文字形式的信息记录、以文字型式的查询指令检索语音形式的信息记录、及以语音形式的查询指令检索语音形式的信息记录。
14.如权利要求13所述的中文信息检索方法,其中查询指令或信息记录凡以文字型式呈现的,其索引特征的分数为该索引特征在该文字形式的查询指令或信息记录中出现的次数。
15.如权利要求1、4、5、6、7或8之任一项所述的中文信息检索方法,另包含为每一查询指令及每一信息记录设计一组特征向量,其中每一特征向量包含有若干个向量分量,每一向量分量用以代表前述中文信息检索中每一索引特征在查询指令与信息记录中由声学辨识分数求得的分数(若为语音型式呈现)或出现的次数(若为文字型式呈现)。
16.如权利要求15所述的中文信息检索方法,其中该查询指令与每一信息记录之关连性由代表该查询指令与代表每一信息记录之各特征向量之个别比对结果的加权和决定。
17.如权利要求1、4、5、6、7或8之任一项所述的中文信息检索方法,另包含有产生一组由数据库导引之索引特征,该组索引特征可由长度为1的音节、字或词片段开始,以由下往上的方式,将相邻的音节、字或词片段两两相连以形成另一长度较长的音节、字或词片段,并以该长度较长之音节、字或词片段在一数据库中之一统计数值,来决定是否应将该两音节、字或词片段加以结合以形成新的索引特征。
18.如权利要求17所述的中文信息检索方法,其中该另一长度较长的音节、字或词片段之长度为2。
19.如权利要求17所述的中文信息检索方法,其中该另一长度较长的音节、字或词之长度为3。
20.如权利要求17所述的中文信息检索方法,其中该统计数值可为该可以相连形成另一长度较长的音节、字或词片段的两个较小音节、字或词片段彼此间的相互信息量。
21.如权利要求17所述的中文信息检索方法,其中该统计数值可为该可以相连形成另一长度较长的音节、字或词片段的两个较小音节、字或词片段彼此间的语言模型参数。
22.如权利要求17所述的中文信息检索方法,其中该产生由数据库导引之索引特征之步骤中,决定是否结合两个相连的较小音节、字或词片段以形成另一长度较长的音节、字或词片段以作为新的索引特征时,对不同长度的音节、字或词片段索引特征给予不同的阀值,当该统计数值大于该阀值时,便将该两较小音节、字或词片段结合以形成新的索引特征。
23.如权利要求22所述的中文信息检索方法,其中该产生由数据库导引之索引特征的步骤可反复执行,直到没有任何相连的音节、字或词片段的统计数值超过该阀值为止。
24.如权利要求11所述的中文信息检索方法,其中各候选音节、字或词之声学辨识分数若低于一预先设定的值时,该候选音节、字或词便会被删除。
25.如权利要求12所述的中文信息检索方法,其中该索引特征在一数据库中出现之次数若低于一预先设定的值时,该索引特征便会被删除。
26.如权利要求25所述的中文信息检索方法,其中该预先设定的值可于决定该索引特征时便加以设定,且不同的索引特征可设定不同的值。
27.如权利要求1、4、5、6、7或8之任一项所述的中文信息检索方法,另包含有根据各索引特征之文件倒数频率建立一极高频索引特征列表。
28.如权利要求27所述的中文信息检索方法,另包含有从特征向量中删除出现在该极高频索引特征列表中的前若干个最常出现的索引特征。
29.如权利要求1、4、5、6、7或8之任一项所述的中文信息检索方法,另包含有为该组索引特征建立一索引特征关连矩阵,该矩阵包含若干个矩阵元素,每一矩阵元素代表任两个索引特征同时出现在相同的信息记录中的频率统计特性。
30.如权利要求29所述的中文信息检索方法,其中该元素为介于0与1之间的任何数值。
31.如权利要求30所述的中文信息检索方法,其中该元素为0可代表两个索引特征从未同时出现在相同的信息记录中或无关连性。
32.如权利要求30所述的中文信息检索方法,其中该元素为1可代表两个索引特征总是同时出现在相同信息记录中或有非常高的关连性。
33.如权利要求32所述的中文信息检索方法,另包含将最具有关连性的若干个索引特征加入查询指令的特征向量中,以形成另一新的查询指令特征向量。
34.如权利要求1、4、5、6、7、8、12或14之任一项所述的中文信息检索方法,另包含有在利用该索引特征检索欲查询之以语音或文字型式呈现之信息记录的步骤后,进行第二次检索。
35.如权利要求34所述的中文信息检索方法,其中该第二次检索可由增加索引特征或删除索引特征,以产生另一新的查询指令特征向量加以执行。
36.如权利要求35所述的中文信息检索方法,其中该索引特征之增加或删除可由该索引特征常出现于之前检索所获得之相关信息记录或不相关信息记录中加以判断。
37.如权利要求36所述的中文信息检索方法,其中若该索引特征常出现于之前检索所获得之相关信息记录中,则增加该索引特征或其分数。
38.如权利要求36所述的中文信息检索方法,其中若该索引特征常出现于之前检索所获得之不相关信息记录中,则删除该索引特征或降低其分数。
39.如权利要求11所述的中文信息检索方法,另包含有在利用该索引特征检索欲查询之以语音或文字型式呈现之信息记录的步骤后,进行第二次检索。
40.如权利要求39所述的中文信息检索方法,其中该第二次检索可由增加索引特征或删除索引特征,以产生另一新的查询指令特征向量加以执行。
41.如权利要求40所述的中文信息检索方法,其中该索引特征之增加或删除可由该索引特征常出现于之前检索所获得的相关信息记录或不相关信息记录中加以判断。
42.如权利要求41所述的中文信息检索方法,其中若该索引特征常出现于之前检索所获得的相关信息记录中,则增加该索引特征或其分数。
43.如权利要求41所述的中文信息检索方法,其中若该索引特征常出现于之前检索所获得的不相关信息记录中,则删除该索引特征或降低其分数。
44.如权利要求15所述的中文信息检索方法,另包含有在利用该索引特征检索欲查询之以语音或文字型式呈现之信息记录的步骤后,进行第二次检索。
45.如权利要求44所述的中文信息检索方法,其中该第二次检索可由增加索引特征或删除索引特征,以产生另一新的查询指令特征向量加以执行。
46.如权利要求45所述的中文信息检索方法,其中该索引特征之增加或删除可由该索引特征常出现于之前检索所获得的相关信息记录或不相关信息记录中加以判断。
47.如权利要求46所述的中文信息检索方法,其中若该索引特征常出现于之前检索所获得的相关信息记录中,则增加该索引特征或其分数。
48.如权利要求46所述的中文信息检索方法,其中若该索引特征常出现于之前检索所获得的不相关信息记录中,则删除该索引特征或降低其分数。
全文摘要
本发明涉及一种以语音为基础的中文信息检索方法。在本发明中,考虑中文的单音节结构特性,发展出来一系列以音节为基础的索引特征,包括了重叠音节片段及可间隔若干音节之双音节,同时也验证了这一系列以音节为基础的索引特征的确具有极强的鉴别能力。此外,在本发明里也发展出进一步融合以中文的字与词为基础的索引特征的方法,以及若干特别的处理方法,来增强上述这些音节索引特征的检索鉴别能力。
文档编号G06F17/30GK1538325SQ0311018
公开日2004年10月20日 申请日期2003年4月15日 优先权日2003年4月15日
发明者李琳山, 简立峰, 陈柏琳, 王新民 申请人:李琳山