本发明涉及关键词识别,更具体地,涉及一种智能语音设备的自定义唤醒词识别方法、装置和存储介质。
背景技术:
1、语音作为是人类最自然的交流方式之一,是人机交互的未来趋势。语音唤醒场景下,用户可以通过说出关键词来唤醒电子设备,使电子设备进入到等待语音指令的状态,或使电子设备直接执行相应指令操作。此处,关键词可以是充当人机交互开关的唤醒词,例如“siri”、“小爱同学”,也可以是指示电子设备执行相应指令操作的命令词,例如“上一页”、“下一页”、“关机”等。然而,当前的众多电子设备依赖一个非语音输入的开关充当唤醒词的角色,如常见的“即按即说”模式,需要用户手动实现语音收音识别器的显示触发和启动,这一类交互方式需要可以培养用户习惯,不利于语音交互的普及,在一类交互方式需要刻意培养用户习惯,不利于语音交互的普及,在易用性和便利性上都大打折扣;而已存在的“连续监听”的唤醒方案,通常基于每一帧所属的声学状态的后验概率计算置信度得分,并将总分与总分门限进行比较,进行关键词判决,鲁棒性较差,时常将背景噪声误解为关键词,以及将发音与关键词相似的语音误解为关键词导致错误响应,尤其在多关键词场景下,错误响应尤为严重。例如“小爱同学”和“小爱同桌”、“上一页”和“下一页”,这些词都只有一字之差,对应的语音总分相差较小但均高于划定的总分门限,极易混淆导致错误响应,导致唤醒词识别不准,非常影响用户体验。
技术实现思路
1、本发明提供一种智能语音设备的自定义唤醒词识别方法、装置、存储介质和电子设备,以解决现有唤醒词识别技术中采用统一阈值对词级特征的总概率进行判断来确定该词级特征对应词组是否为唤醒词的方法很难覆盖复杂应用场景,唤醒词识别不准的问题,通过使用大量历史样本声学特征以及对应历史音素标签训练得到的唤醒词识别模型进行用户输入语音数据的唤醒词识别,由于唤醒词识别模型的使用还基于预先构建的解码图对应的路径顺序识别,而解码图是基于用户预先输入的注册唤醒词对应的目标音素序列构建的,故唤醒词识别模型的使用是按照注册唤醒词对应的目标音素序列按照音素级特征一个一个按所述路径的节点依次识别,保证唤醒词中的每一个音素都识别正确,而不是笼统的识别词级特征,提高了唤醒词识别的准确率。
2、本技术的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本技术的实践而习得。
3、第一方面,本发明提供一种智能语音设备的自定义唤醒词识别方法,包括:
4、持续接收用户的输入语音数据;
5、提取所述输入语音数据中每一帧的声学特征;
6、将所述输入语音数据中每一帧的声学特征按时序输入预先训练的唤醒词识别模型,得到所述唤醒词识别模型基于预构建的解码图对应的路径按所述路径的节点依次识别输出的所述输入语音数据对应的唤醒词识别结果,
7、其中,所述唤醒词识别模型是基于多个历史样本词中每一样本帧的历史样本声学特征以及对应所述历史样本声学特征的历史音素标签构成的训练样本集合输入到初始待训练网络中进行训练得到的,所述解码图是基于用户预输入的注册唤醒词对应的目标音素序列构建的,所述唤醒词识别结果包括唤醒所述设备和不唤醒所述设备。
8、可选地,根据本发明提供的智能语音设备的自定义唤醒词识别方法,所述将所述输入语音数据中每一帧的声学特征按时序输入预先训练的唤醒词识别模型,所述唤醒词识别模型基于预构建的解码图对应的路径按所述路径的节点依次识别输出的所述输入语音数据对应的唤醒词识别结果,其中,所述解码图是基于用户预输入的注册唤醒词对应的目标音素序列构建的,具体包括:
9、将所述输入语音数据中每一帧的声学特征按时序输入预先训练的唤醒词识别模型,得到所述唤醒词识别模型输出的待检测音素特征序列;
10、若所述待检测音素特征序列中的待检测音素特征与目标音素序列中的音素按时序匹配成功,则得到所述唤醒词识别模型输出的所述输入语音数据对应的唤醒词识别结果为唤醒所述设备;
11、其中,所述目标音素序列为基于用户预输入的注册唤醒词确定。
12、可选地,根据本发明提供的智能语音设备的自定义唤醒词识别方法,所述若所述待检测音素特征序列中的待检测音素特征与目标音素序列中的音素按时序匹配成功,则得到所述唤醒词识别模型输出的所述输入语音数据对应的唤醒词识别结果为唤醒所述设备,具体包括:
13、针对所述待检测音素序列中的每一个待检测音素特征依次在所述待检测音素特征的前一待检测音素特征满足匹配要求的情况下,将所述待检测音素特征与所述目标音素序列中对应的目标音素进行匹配,在所述待检测音素特征的前一待检测音素特征不满足匹配要求的情况下,将所述待检测音素特征与所述目标音素序列中的第一目标音素进行匹配,直至匹配成功;
14、其中,所述匹配成功为所述待检测音素特征与所述目标音素序列中的最后目标音素进行匹配后满足匹配要求。
15、可选地,根据本发明提供的智能语音设备的自定义唤醒词识别方法,所述若所述待检测音素特征序列中的待检测音素特征与目标音素序列中的音素按时序匹配成功,则得到所述唤醒词识别模型输出的所述输入语音数据对应的唤醒词识别结果为唤醒所述设备,具体还包括:
16、针对所述待检测音素序列中的每一个待检测音素特征依次在所述待检测音素特征的前一待检测音素特征满足匹配要求的情况下,将所述待检测音素特征与所述目标音素序列中对应的目标音素进行匹配,在所述待检测音素特征的前一待检测音素特征不满足匹配要求的情况下,将所述待检测音素特征与所述目标音素序列中的第一目标音素进行匹配,直至匹配失败则重新针对所述待检测音素特征后的每一个待检测特征音素依次进行匹配;
17、其中,所述匹配失败为所述待检测音素特征与所述目标音素序列中对应的目标音素进行匹配后不满足匹配要求。
18、可选地,根据本发明提供的智能语音设备的自定义唤醒词识别方法,所述唤醒词识别模型的网络所述唤醒词识别模型的网络包括共享预编码器和并联连接的多个音素状态编码器,所述共享预编码器和所述多个音素状态编码器串联连接;
19、对应地,所述将所述输入语音数据中每一帧的声学特征按时序输入预先训练的唤醒词识别模型,得到所述唤醒词识别模型输出的待检测音素特征序列,具体包括:
20、将所述输入语音数据中每一帧的声学特征按时序输入所述共享预编码器,得到所述共享预编码器输出的待检测音素特征序列,其中,所述待检测音素特征序列中的待检测音素特征用于输入至所述多个音素状态编码器中的特定音素状态编码器以供所述特定音素状态编码器输出对应的特定音素状态的后验概率;
21、所述将所述待检测音素特征与所述目标音素序列中对应的目标音素进行匹配,具体包括:
22、将所述待检测音素特征输入至所述多个音素状态编码器中基于所述目标音素序列中对应的目标音素确定的特定音素状态编码器,得到所述特定音素状态编码器输出对应的特定音素状态的后验概率,若所述后验概率大于所述特定音素状态编码器对应的预设阈值,则满足匹配要求。
23、可选地,根据本发明提供的智能语音设备的自定义唤醒词识别方法,所述唤醒词识别模型的训练过程,具体包括:
24、对于任一轮训练,将所述训练样本集合中的任一历史样本声学特征输入所述共享预编码器,得到所述共享预编码器输出对应于所述历史样本声学特征的样本音素特征;
25、将所述样本音素特征输入所述多个音素状态编码器中的每一个音素状态编码器,得到每个音素状态编码器输出的各音素状态的后验概率;
26、将所述各音素状态的后验概率和对应所述任一历史样本声学特征的历史音素标签输入预先构建的损失函数,输出对应的损失值;
27、基于所述损失值调整所述共享预编码器和所述多个音素状态编码器中的待优化参数,待优化参数调整后的所述共享预编码器用于接收所述训练样本集合中的下一历史样本声学特征进行下一轮训练,直至满足预设训练结束条件。
28、可选地,根据本发明提供的智能语音设备的自定义唤醒词识别方法,所述注册唤醒词为用户基于语音预先输入的或者用户基于文本预先输入的。
29、第二方面,本发明提供一种智能语音设备的自定义唤醒词识别装置,所述装置包括:
30、接收单元,用于持续接收用户的输入语音数据;
31、提取单元,用于提取所述输入语音数据中每一帧的声学特征;
32、识别单元,用于将所述输入语音数据中每一帧的声学特征按时序输入预先训练的唤醒词识别模型,得到所述唤醒词识别模型基于预构建的解码图对应的路径按所述路径的节点依次识别输出的所述输入语音数据对应的唤醒词识别结果,
33、其中,所述唤醒词识别模型是基于多个历史样本词中每一样本帧的历史样本声学特征以及对应所述历史样本声学特征的历史音素标签构成的训练样本集合输入到初始待训练网络中进行训练得到的,所述解码图是基于用户预输入的注册唤醒词对应的目标音素序列构建的,所述唤醒词识别结果包括唤醒所述设备和不唤醒所述设备。
34、第三方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行以实现如第一方面所述的智能语音设备的自定义唤醒词识别方法所执行的操作。
35、第四方面,本发明提供一种电子设备,所述电子设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条程序代码,所述至少一条程序代码由所述一个或多个处理器加载并执行以实现如第一方面所述的智能语音设备的自定义唤醒词识别方法所执行的操作。
36、本发明提供的智能语音设备的自定义唤醒词识别方法、装置、存储介质和电子设备,通过使用大量历史样本声学特征以及对应历史音素标签训练得到的唤醒词识别模型进行用户输入语音数据的唤醒词识别,由于唤醒词识别模型的使用还基于预先构建的解码图对应的路径顺序识别,而解码图是基于用户预先输入的注册唤醒词对应的目标音素序列构建的,故唤醒词识别模型的使用是按照注册唤醒词对应的目标音素序列按照音素级特征一个一个按所述路径的节点依次识别,保证唤醒词中的每一个音素都识别正确,而不是笼统的识别词级特征,提高了唤醒词识别的准确率。
37、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本技术。
1.一种智能语音设备的自定义唤醒词识别方法,其特征在于,包括:
2.根据权利要求1所述的智能语音设备的自定义唤醒词识别方法,其特征在于,所述将所述输入语音数据中每一帧的声学特征按时序输入预先训练的唤醒词识别模型,所述唤醒词识别模型基于预构建的解码图对应的路径按所述路径的节点依次识别输出的所述输入语音数据对应的唤醒词识别结果,其中,所述解码图是基于用户预输入的注册唤醒词对应的目标音素序列构建的,具体包括:
3.根据权利要求2所述的智能语音设备的自定义唤醒词识别方法,其特征在于,所述若所述待检测音素特征序列中的待检测音素特征与目标音素序列中的音素按时序匹配成功,则得到所述唤醒词识别模型输出的所述输入语音数据对应的唤醒词识别结果为唤醒所述设备,具体包括:
4.根据权利要求3所述的智能语音设备的自定义唤醒词识别方法,其特征在于,所述若所述待检测音素特征序列中的待检测音素特征与目标音素序列中的音素按时序匹配成功,则得到所述唤醒词识别模型输出的所述输入语音数据对应的唤醒词识别结果为唤醒所述设备,具体还包括:
5.根据权利要求4所述的智能语音设备的自定义唤醒词识别方法,其特征在于,所述唤醒词识别模型的网络包括共享预编码器和并联连接的多个音素状态编码器,所述共享预编码器和所述多个音素状态编码器串联连接;
6.根据权利要求5所述的智能语音设备的自定义唤醒词识别方法,其特征在于,所述唤醒词识别模型的训练过程,具体包括:
7.根据权利要求1-6任一项所述的智能语音设备的自定义唤醒词识别方法,其特征在于,所述注册唤醒词为用户基于语音预先输入的或者用户基于文本预先输入的。
8.一种智能语音设备的自定义唤醒词识别装置,其特征在于,包括:
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行以实现如权利要求1至7任一项所述的智能语音设备的自定义唤醒词识别所执行的操作。
10.一种电子设备,其特征在于,所述电子设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条程序代码,所述至少一条程序代码由所述一个或多个处理器加载并执行以实现如权利要求1至7任一项所述的智能语音设备的自定义唤醒词识别所执行的操作。