低资源设备上的语音识别训练方法、装置以及设备与流程

xiaoxiao24天前  20


本申请涉及语音识别,尤其涉及一种低资源设备上的语音识别训练方法、装置以及设备。


背景技术:

1、命令词识别属于语音识别,广泛应用于智能家居领域,比如智能语音音箱、智能语音耳机、智能语音灯、智能语音风扇等。嵌入式设备由于成本考虑,相比手机等智能设备,其算力低、内存和flash小。由于ctc算法对序列任务不需要对齐,快速省内存等优势。一般的嵌入式设备上的语音识别算法一般采用ctc解码算法。一般的ctc解码算法是按照前向算法计算路径得分。由于ctc目标只是最大化正确路径,在误识别方面尤其是命令词较短时,会表现不佳。区分性训练不仅要求正确单词序列的可能性要大,同时要求所有可能单词序列的可能性之和要小,此方式可大幅减少误识别的概率。在低资源设备面临的一个问题是,若使用区分性训练,则解码需要使用区分性方式解码,区分性方式解码需要构造分子词图和分母词图,以及需要使用wfst解析库,此两者均需要占用较大内存和flash空间,使得区分性训练的模型很难部署在低资源设备上。


技术实现思路

1、针对上述技术问题,本申请的目的在于提供一种低资源设备上的语音识别训练方法、装置以及设备,旨在解决区分性训练的模型很难部署在低资源设备的技术问题,实现既能够使用区分性训练大幅减少误识别的概率又能够将模型部署在低资源设备,保证模型的轻量部署和实时性。

2、第一方面,本申请实施例提供一种低资源设备上的语音识别训练方法,包括:

3、获取训练完毕的音素语言模型;

4、将所述训练完毕的音素语言模型中的概率部分全部置为0,获得修改后的音素语言模型;

5、使用ctc方式,使用通用对话语料训练神经网络获得通用识别模型;

6、基于所述修改后的音素语言模型,使用通用语料和命令词语料,以及使用区分性训练方式对所述通用识别模型进行训练。

7、进一步的,所述基于所述修改后的音素语言模型,使用通用语料和命令词语料,以及使用区分性训练方式对所述通用识别模型进行训练的步骤包括:

8、基于所述修改后的音素语言模型,使用通用语料和命令词语料,以及使用mmi方式对所述通用识别模型进行训练。

9、进一步的,所述基于所述修改后的音素语言模型,使用通用语料和命令词语料,以及使用mmi方式对所述通用识别模型进行训练的步骤包括:

10、基于所述修改后的音素语言模型构建mmi目标函数;

11、使用通用语料和命令词语料、使用mmi方式以及以所述mmi目标函数最大化为目标对通用语音识别模型进行训练。

12、进一步的,所述基于所述修改后的音素语言模型构建mmi目标函数的步骤包括:

13、生成发音词典的l.fst图;

14、构造音素ctc拓扑图;

15、利用所述音素ctc拓扑图和所述修改后的音素语言模型构建分母解码图;

16、利用所述分母解码图和所述l.fst图生成分子解码图;

17、根据语料构建transcript_fsa;其中,transcript_fsa是音素id到word id的映射图;

18、基于所述分子解码图、所述分母解码图和所述transcript_fsa构建mmi目标函数。

19、进一步的,所述基于所述分子解码图、所述分母解码图和所述transcript_fsa构建mmi目标函数的步骤包括:

20、利用所述分子解码图和所述transcript_fsa构建分子词图;

21、利用所述分母解码图和所述transcript_fsa构建分母词图;

22、利用所述分子词图和所述分母词图构建目标函数。

23、进一步的,所述获取训练完毕的音素语言模型的步骤之前,还包括:

24、收集文本语料;

25、将所述文本语料转换为拼音;

26、获取拼音到音素的映射表;

27、通过所述拼音到音素的映射表将所述文本语料的拼音转换为音素,得到音素序列;

28、根据所述音素序训练n元音素语言模型,当完成训练时,获得所述训练完毕的音素语言模型。

29、进一步的,所述音素语言模型的建模单元为不带音调的音素。

30、第二方面,本申请实施例提供一种低资源设备上的语音识别训练装置,所述装置包括:

31、获取模块,用于获取训练完毕的音素语言模型;

32、修改模块,用于将所述训练完毕的音素语言模型中的概率部分全部置为0,获得修改后的音素语言模型;

33、第一训练模块,用于使用ctc方式,使用通用对话语料训练神经网络获得通用识别模型;

34、第二训练模块,用于基于所述修改后的音素语言模型,使用通用语料和命令词语料,以及使用区分性训练方式对所述通用识别模型进行训练。

35、第三方面,本申请实施例提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现如上述任一项所述的低资源设备上的语音识别训练方法的步骤。

36、第四方面,本申请实施例提供一种智能语音设备,其特征在于,所述智能语音设备上部署有采用上述任一项所述的低资源设备上的语音识别训练方法训练得到的语音识别模型。

37、本申请通过将训练完毕的音素语言模型中的概率部分全部置为0,且采用ctc方式训练神经网络获得通用语言模型以及使用区分性训练方式对所述通用识别模型进行训练,这样使得解码中的数值信息,均来自于ctc输出,未使用语言模型得分,故最终解码跟ctc解码基本一致,避免了仅使用区分性训练,使用ctc解码时,wer(词错率)过大,而无法使用轻量的ctc解码的问题,使得使用区分性训练可以使用ctc解码。由于本发明可以采用ctc方式对区分性训练得到的模型进行解码,而无需使用区分性解码,从而解决了区分性训练的模型很难部署在低资源设备的技术问题,实现既能够使用区分性训练大幅减少误识别的概率又能够将模型部署在低资源设备,保证模型的轻量部署和实时性。



技术特征:

1.一种低资源设备上的语音识别训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的低资源设备上的语音识别训练方法,其特征在于,所述基于所述修改后的音素语言模型,使用通用语料和命令词语料,以及使用区分性训练方式对所述通用识别模型进行训练的步骤包括:

3.根据权利要求1所述的低资源设备上的语音识别训练方法,其特征在于,所述基于所述修改后的音素语言模型,使用通用语料和命令词语料,以及使用mmi方式对所述通用识别模型进行训练的步骤包括:

4.根据权利要求3所述的低资源设备上的语音识别训练方法,其特征在于,所述基于所述修改后的音素语言模型构建mmi目标函数的步骤包括:

5.根据权利要求4所述的低资源设备上的语音识别训练方法,其特征在于,所述基于所述分子解码图、所述分母解码图和所述transcript_fsa构建mmi目标函数的步骤包括:

6.根据权利要求1所述的低资源设备上的语音识别训练方法,其特征在于,所述获取训练完毕的音素语言模型的步骤之前,还包括:

7.根据权利要求1所述的低资源设备上的语音识别训练方法,其特征在于,所述音素语言模型的建模单元为不带音调的音素。

8.一种低资源设备上的语音识别训练装置,其特征在于,所述装置包括:

9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的低资源设备上的语音识别训练方法的步骤。

10.一种智能语音设备,其特征在于,所述智能语音设备上部署有采用权利要求1-7任一项所述的低资源设备上的语音识别训练方法训练得到的语音识别模型。


技术总结
本申请涉及语音识别技术领域,提供一种低资源设备上的语音识别训练方法、装置以及设备,方法包括:获取训练完毕的音素语言模型;将所述训练完毕的音素语言模型中的概率部分全部置为0,获得修改后的音素语言模型;使用ctc方式,使用通用对话语料训练神经网络获得通用识别模型;基于所述修改后的音素语言模型,使用通用语料和命令词语料,以及使用区分性训练方式对所述通用识别模型进行训练。本申请解决了区分性训练的模型很难部署在低资源设备的技术问题,实现既能够使用区分性训练大幅减少误识别的概率又能够将模型部署在低资源设备,保证模型的轻量部署和实时性。

技术研发人员:李杰
受保护的技术使用者:深圳市友杰智新科技有限公司
技术研发日:
技术公布日:2024/9/23

最新回复(0)