语音识别方法及装置的制造方法

xiaoxiao2021-2-23  148

语音识别方法及装置的制造方法
【技术领域】
[0001 ]本公开涉及网络通信技术领域,尤其涉及语音识别方法及装置。
【背景技术】
[0002]随着网络通信技术的不断发展,具有语音识别功能的智能手机的使用也越来越广泛。相关技术中,智能手机可以安装语音助手,并通过该语音助手完成语音识别的功能,比如:通过语音识别,匹配手机通讯录,从而实现联系人关联查询。但是,相关技术中的语音识别受限于声学模型与词典之间的强关联关系,灵活性差,难以扩充,降低了用户体验。

【发明内容】

[0003]为克服相关技术中存在的问题,本公开提供了语音识别方法及装置。
[0004]根据本公开实施例的第一方面,提供一种语音识别方法,所述方法包括:
[0005]接收语音信号;
[0006]根据所述语音信号生成对应的拼音信息;
[0007]根据所述拼音信息检索指定数据库,得到与所述语音信号对应的文本信息。
[0008]可选的,所述语音信号是针对联系人信息的语音信号,所述联系人信息包括联系人姓名和昵称中的任意一种。
[0009]可选的,所述根据所述语音信号生成对应的拼音信息,包括:
[0010]对所述语音信号进行前端处理,所述前端处理包括端点检测和语音增强;
[0011]采用声学模型对所述前端处理后的语音信息进行声学处理,得到对应的音节信息;
[0012]将所述音节信息转换为对应的拼音信息。
[0013]可选的,所述将所述音节信息转换为对应的拼音信息,包括:
[0014]将所述音节信息转换为至少一种拼音形式的拼音信息,所述拼音形式包括全拼、缩写和简写中的至少一种。
[0015]可选的,所述根据所述拼音信息检索指定数据库,得到与所述语音信号对应的文本信息,包括:
[0016]在拼音索引库中查询所述拼音信息对应的文本信息;
[0017]当确定查询到所述拼音信息对应的至少一个文本信息时,计算所查询到的文本信息与所述拼音信息的匹配度;
[0018]根据所述匹配度确定所述语音信号对应的文本信息。
[0019]可选的,所述根据所述匹配度确定所述拼音信息对应的文本信息,包括:
[0020]显示所述匹配度超过预设匹配度阈值的文本信息;
[0021 ]接收用户针对所显示的文本信息的选择指令;
[0022]根据所述选择指令将用户所选的文本信息确定为所述语音信号对应的文本信息。
[0023]可选的,所述方法还包括:
[0024]建立所述拼音索引库,所述拼音索引库包括各个联系人信息对应的拼音信息,以及每个拼音信息对应的至少一个文本信息。
[0025]可选的,所述方法还包括:
[0026]当检测到所述联系人信息出现增加、减少或变更中任一种变化时,根据所述变化后的联系人信息更新所述拼音索引库。
[0027]根据本公开实施例的第二方面,提供一种语音识别装置,所述装置包括:
[0028]接收模块,被配置为接收语音信号;
[0029]拼音信息生成模块,被配置为根据所述接收模块接收到的所述语音信号生成对应的拼首?目息;
[0030]文本信息确定模块,被配置为根据所述拼音信息检索指定数据库,得到与所述语音信号对应的文本信息。
[0031]可选的,所述接收模块接收到的语音信号是针对联系人信息的语音信号,所述联系人信息包括联系人姓名和昵称中的任意一种。
[0032]可选的,所述拼音信息生成模块包括:
[0033]前端处理子模块,被配置为对所述语音信号进行前端处理,所述前端处理包括端点检测和语音增强;
[0034]声学处理子模块,被配置为采用声学模型对所述前端处理子模块处理后的语音信息进行声学处理,得到对应的音节信息;
[0035]第一转换子模块,被配置为将所述声学处理子模块得到的所述音节信息转换为对应的拼音信息。
[0036]可选的,所述第一转换子模块包括:
[0037]第二转换子模块,被配置为将所述音节信息转换为至少一种拼音形式的拼音信息,所述拼音形式包括全拼、缩写和简写中的至少一种。
[0038]可选的,所述文本信息确定模块包括:
[0039]查询子模块,被配置为在拼音索引库中查询所述拼音信息对应的文本信息;
[0040]计算子模块,被配置为当所述查询子模块确定查询到所述拼音信息对应的至少一个文本信息时,计算所查询到的文本信息与所述拼音信息的匹配度;
[0041]第一文本信息确定子模块,被配置为根据所述计算子模块计算得到的所述匹配度确定所述语音信号对应的文本信息。
[0042]可选的,所述第一文本信息确定子模块包括:
[0043]显示子模块,被配置为显示所述匹配度超过预设匹配度阈值的文本信息;
[0044]接收子模块,被配置为接收用户针对所述显示子模块所显示的文本信息的选择指令;
[0045]第二文本信息确定子模块,被配置为根据所述接收子模块接收到的所述选择指令将用户所选的文本信息确定为所述语音信号对应的文本信息。
[0046]可选的,所述装置还包括:
[0047]拼音索引库建立模块,被配置为建立所述拼音索引库,所述拼音索引库包括各个联系人信息对应的拼音信息,以及每个拼音信息对应的至少一个文本信息。
[0048]可选的,所述装置还包括:
[0049]拼音索引库更新模块,当检测到所述联系人信息出现增加、减少或变更中任一种变化时,根据所述变化后的联系人信息更新所述拼音索引库。
[0050]根据本公开实施例的第三方面,提供一种语音识别装置,所述装置包括:
[0051]处理器;
[0052]用于存储处理器可执行指令的存储器;
[0053]其中,所述处理器被配置为:
[0054]接收语音信号;
[0055]根据所述语音信号生成对应的拼音信息;
[0056]根据所述拼音信息检索指定数据库,得到与所述语音信号对应的文本信息。
[0057]本公开的实施例提供的技术方案可以包括以下有益效果:
[0058]本公开中终端可以接收语音信号,根据该语音信号生成对应的拼音信息,再根据该语音信号对应的拼音信息检索指定数据库,得到与语音信号对应的文本信息,从而实现了通过拼音信息将语音信号和文本信息进行隔离,并通过该拼音信息作为中间结果,提高了语音识别的准确度,还容易扩充新的文本信息,提高了用户体验。
[0059]本公开中终端还可以对语音信号进行前端处理,并采用声学模型对前端处理后的语音信息进行声学处理,得到对应的音节信息,再将音节信息转换为对应的拼音信息,从而实现了语音信号到拼音信息的转换,有利于提升语音识别的准确率。
[0060]本公开中终端还可以在拼音索引库中查询拼音信息对应的文本信息,当确定查询到该拼音信息对应的至少一个文本信息时,计算所查询到的文本信息与拼音信息的匹配度,根据计算得到的匹配度确定接收到的语音信号对应的文本信息,从而实现了拼音信息到文本信息的转换,提高了语音识别的准确率。
[0061 ]本公开中终端还可以当检测到联系人信息出现增加、减少或变更中任一种变化时,可以根据变化后的联系人信息更新拼音索引库,便于联系人信息的变动,提高了用户体验。
[0062]本公开中终端还可以显示计算得到的匹配度超过预设匹配度阈值的文本信息,接收用户针对所显示的文本信息的选择指令,根据用户选择指令将用户所选的文本信息确定为接收到的语音信号对应的文本信息,提高了语音识别的速度,满足了用户个性化需求,提尚了用户体验。
[0063]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
【附图说明】
[0064]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
[0065]图1是本公开根据一示例性实施例示出的一种语音识别方法流程图;
[0066]图2是本公开根据一示例性实施例示出的另一种语音识别方法流程图;
[0067]图3是本公开根据一示例性实施例示出的另一种语音识别方法流程图;
[0068]图4是本公开根据一示例性实施例示出的另一种语音识别方法流程图;
[0069]图5是本公开根据一示例性实施例示出的一种语音识别方法的应用场景图;
[0070]图6是本公开根据一示例性实施例示出的一种语音识别装置的框图;
[0071 ]图7是本公开根据一示例性实施例示出的另一种语音识别装置的框图;
[0072]图8是本公开根据一示例性实施例示出的另一种语音识别装置的框图;
[0073]图9是本公开根据一示例性实施例示出的另一种语音识别装置的框图;
[0074]图10是本公开根据一示例性实施例示出的另一种语音识别装置的框图;
[0075] 图11是本公开根据一示例性实施例示出的另一种语音识别装置的框图;
[0076]图12是本公开根据一示例性实施例示出的另一种语音识别装置的框图;
[0077]图13是本公开根据一示例性实施例示出的一种用于语音识别装置的一结构示意图。
【具体实施方式】
[0078]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
[0079]在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0080]应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
[0081]如图1所示,图1是本公开根据一示例性实施例示出的一种语音识别方法流程图,该方法可以用于终端上,包括以下步骤:
[0082]在步骤110中,接收语音信号。
[0083]本公开中的终端可以是任何具有上网功能的大屏幕智能终端,例如,可以具体为手机、平板电脑、PDA(Personal Digital Assistant,个人数字助理)等。其中,终端可以通过无线局域网接入路由器,并通过路由器访问公网上的服务器。
[0084]本公开实施例中,终端接收到的语音信号可以是针对联系人信息的语音信号。其中,联系人信息可以包括联系人姓名和昵称中的任意一种。
[0085]比如,通信录中某个联系人姓名为“王小明”,终端接收到的语音信号可能是与“王小明”对应的语音信号。
[0086]又比如,通信录中某个联系人昵称为“小小”,终端接收到的语音信号可能是与“小小”对应的语音信号。
[0087]在步骤120中,根据接收到的语音信号生成对应的拼音信息。
[0088]本公开实施例中,若语音信号是针对中文姓名的,而中文姓名是由姓氏与名字组成,虽然每个汉字都能包含在现有字典中,但是现有的训练语料库的常用句子中难以覆盖这种姓名的组合,并且对单个汉字的匹配效果也不佳。在本公开中,在沿用现有字典的基础上,增加了拼音信息,后续增加的中文姓名基本都能包含在现有字典中,并通过拼音读音的方式共享已有语音训练的结果,即便有生僻字,也可以通过拼音共享的方式动态添加,不用重新训练声学模型。故此,使用拼音信息的方式解决了训练语料库难以覆盖汉语姓名,导致匹配度低的问题,并且通过使用拼音信息作为中间结果,提高了针对汉语姓名的语音识别准确度。
[0089]在步骤130中,根据语音信号对应的拼音信息检索指定数据库,得到与该语音信号对应的文本信息。其中,指定数据库可以包括通信录的联系人信息。
[0090]由上述实施例可见,通过接收语音信号,根据该语音信号生成对应的拼音信息,再根据该语音信号对应的拼音信息检索指定数据库,得到与语音信号对应的文本信息,从而实现了通过拼音信息将语音信号和文本信息进行隔离,并通过该拼音信息作为中间结果,提高了语音识别的准确度,还容易扩充新的文本信息,提高了用户体验。
[0091]如图2所示,图2是本公开根据一示例性实施例示出的另一种语音识别方法流程图,该方法可以用于终端上,并建立图1所示方法的基础上,在执行步骤120中根据接收到的语音信号生成对应的拼音信息时,可以包括以下步骤:
[0092]在步骤210中,对语音信号进行前端处理,该前端处理包括端点检测和语音增强。
[0093]本公开实施例中,端点检测可以指的是在语音信号中将语音和非语音信号时段区分开来,准确地确定出语音信号的起始点。语音增强可以指的是消除环境噪声对语音的影响。
[0094]在步骤220中,采用声学模型对前端处理后的语音信息进行声学处理,得到对应的音节信息。
[0095]本公开实施例中,声学处理指的是完成语音到音节概率的计算,从而得到对应的音节信息。
[0096]在步骤230中,将音节信息转换为对应的拼音信息。
[0097]本公开实施例中,可以将音节信息转换为至少一种拼音形式的拼音信息。其中,拼音形式可以包括全拼、缩写和简写中的至少一种。
[0098]比如,通信录中某个联系人姓名为“王小明”,终端接收到的语音信号可能是与“王小明”对应的音节信息,将“王小明”对应的音节信息转换为对应的拼音信息后,该拼音信息可以为全拼即wangxiaoming、缩写即wxm和简写即xiaoming中的至少一种。
[0099]由上述实施例可见,通过对语音信号进行前端处理,并采用声学模型对前端处理后的语音信息进行声学处理,得到对应的音节信息,再将音节信息转换为对应的拼音信息,从而实现了语音信号到拼音信息的转换,有利于提升语音识别的准确率。
[0100]如图3所示,图3是本公开根据一示例性实施例示出的另一种语音识别方法流程图,该方法可以用于终端上,并建立图1所示方法的基础上,在执行步骤130中根据语音信号对应的拼音信息检索指定数据库,得到与该语音信号对应的文本信息时,可以包括以下步骤:
[0101 ]在步骤310中,在拼音索引库中查询拼音信息对应的文本信息。
[0102]在步骤320中,当确定查询到该拼音信息对应的至少一个文本信息时,计算所查询到的文本信息与拼音信息的匹配度。
[0103]在步骤330中,根据计算得到的匹配度确定接收到的语音信号对应的文本信息。
[0104]本公开实施例中,根据计算得到的匹配度确定接收到的语音信号对应的文本信的方法有很多,比如:将计算得到的匹配度按照从到小的顺序进行排序,并选择排序比较靠前的一个或多个文本信息作为接收到的语音信号对应的文本信息。
[0105]由上述实施例可见,通过在拼音索引库中查询拼音信息对应的文本信息,当确定查询到该拼音信息对应的至少一个文本信息时,计算所查询到的文本信息与拼音信息的匹配度,根据计算得到的匹配度确定接收到的语音信号对应的文本信息,从而实现了拼音信息到文本信息的转换,提高了语音识别的准确率。
[0106]在一公开实施例中,图3所示方法中,还可以包括:
[0107]建立拼音索引库,该拼音索引库包括各个联系人信息对应的拼音信息,以及每个拼音信息对应的至少一个文本信息。
[0108]另外,当检测到联系人信息出现增加、减少或变更中任一种变化时,可以根据变化后的联系人信息更新拼音索引库。
[0109]本公开实施例中,新建联系人不需要进行声学训练,只需要拼音索引库,只要在原有声学模型和字典中包含的汉字,都可以实现语音识别。
[0110]由上述实施例可见,当检测到联系人信息出现增加、减少或变更中任一种变化时,可以根据变化后的联系人信息更新拼音索引库,便于联系人信息的变动,提高了用户体验。
[0111]如图4所示,图4是本公开根据一示例性实施例示出的另一种语音识别方法流程图,该方法可以用于终端上,并建立图3所示方法的基础上,在执行步骤330中根据计算得到的匹配度确定接收到的语音信号对应的文本信息时,可以包括以下步骤:
[0112]在步骤410中,显示计算得到的匹配度超过预设匹配度阈值的文本信息。其中,预设匹配度阈值可以是根据实际情况提前设定的。
[0113]在步骤420中,接收用户针对所显示的文本信息的选择指令。
[0114]在步骤430中,根据用户选择指令将用户所选的文本信息确定为接收到的语音信号对应的文本信息。
[0115]由上述实施例可见,通过显示计算得到的匹配度超过预设匹配度阈值的文本信息,接收用户针对所显示的文本信息的选择指令,根据用户选择指令将用户所选的文本信息确定为接收到的语音信号对应的文本信息,提高了语音识别的速度,满足了用户个性化需求,提高了用户体验。
[0116]如图5所示,图5是本公开根据一示例性实施例示出的一种语音识别方法的应用场景图。该应用场景包括终端。
[0117]终端可以接收针对通信录中各个联系人信息的语音信号;
[0118]终端可以根据接收到的语音信号生成对应的拼音信息;
[0119]终端可以根据语音信息对应的拼音信息检索指定数据库,得到与该语音信号对应的文本信息。
[0120]在图5所示应用场景中,实现语音识别的具体过程可以参见前述对图1-图4中的描述,在此不再赘述。
[0121]与前述语音识别方法实施例相对应,本公开还提供了语音识别装置 的实施例。
[0122]如图6所示,图6是本公开根据一示例性实施例示出的一种语音识别装置的框图,所述装置应用于终端上,并用于执行图1所示的语音识别方法,所述装置包括:接收模块61、拼音信息生成模块62和文本信息确定模块63。
[0123]其中,接收模块61,被配置为接收语音信号。
[0124]拼音信息生成模块62,被配置为根据所述接收模块61接收到的所述语音信号生成对应的拼音信息。
[0125]文本信息确定模块63,被配置为根据所述拼音信息生成模块62生成的所述拼音信息检索指定数据库,得到与所述语音信号对应的文本信息。
[0126]上述接收模块61接收到的语音信号可以是针对联系人信息的语音信号,该联系人信息可以包括联系人姓名和昵称中的任意一种。
[0127]由上述实施例可见,通过接收语音信号,根据该语音信号生成对应的拼音信息,再根据该语音信号对应的拼音信息检索指定数据库,得到与该语音信号对应的文本信息,从而实现了通过拼音信息将语音信号和文本信息进行隔离,并通过该拼音信息作为中间结果,提高了语音识别的准确度,还容易扩充新的文本信息,提高了用户体验。
[0128]如图7所示,图7是本公开根据一示例性实施例示出的另一种语音识别装置的框图,所述装置应用于终端上,并建立图6所示装置的基础上,所述拼音信息生成模块62可以包括:前端处理子模块71、声学处理子模块72和第一转换子模块73。
[0129]其中,前端处理子模块71,被配置为对所述语音信号进行前端处理,所述前端处理包括端点检测和语音增强;
[0130]声学处理子模块72,被配置为采用声学模型对所述前端处理子模块71处理后的语音信息进行声学处理,得到对应的音节信息;
[0131]第一转换子模块73,被配置为将所述声学处理子模块72得到的所述音节信息转换为对应的拼音信息。
[0132]由上述实施例可见,通过对语音信号进行前端处理,并采用声学模型对前端处理后的语音信息进行声学处理,得到对应的音节信息,再将音节信息转换为对应的拼音信息,从而实现了语音信号到拼音信息的转换,有利于提升语音识别的准确率。
[0133]如图8所示,图8是本公开根据一示例性实施例示出的另一种语音识别装置的框图,所述装置应用于终端上,并建立图7所示装置的基础上,所述第一转换子模块73可以包括:第二转换子模块81。
[0134]其中,第二转换子模块81,被配置为将所述音节信息转换为至少一种拼音形式的拼音信息,所述拼音形式包括全拼、缩写和简写中的至少一种。
[0135]如图9所示,图9是本公开根据一示例性实施例示出的另一种语音识别装置的框图,所述装置应用于终端上,并建立图6所示装置的基础上,所述文本信息确定模块63可以包括:查询子模块91、计算子模块92和第一文本信息确定子模块93。
[0136]其中,查询子模块91,被配置为在拼音索引库中查询所述拼音信息对应的文本信息;
[0137]计算子模块92,被配置为当所述查询子模块91确定查询到所述拼音信息对应的至少一个文本信息时,计算所查询到的文本信息与所述拼音信息的匹配度;
[0138]第一文本信息确定子模块93,被配置为根据所述计算子模块92计算得到的所述匹配度确定所述语音信号对应的文本信息。
[0139]由上述实施例可见,通过在拼音索引库中查询拼音信息对应的文本信息,当确定查询到该拼音信息对应的至少一个文本信息时,计算所查询到的文本信息与拼音信息的匹配度,根据计算得到的匹配度确定接收到的语音信号对应的文本信息,从而实现了拼音信息到文本信息的转换,提高了语音识别的准确率。
[0140]如图10所示,图10是本公开根据一示例性实施例示出的另一种语音识别装置的框图,所述装置应用于终端上,并建立图9所示装置的基础上,所述第一文本信息确定子模块93可以包括:显示子模块101、接收子模块102和第二文本信息确定子模块103。
[0141]其中,显示子模块101,被配置为显示所述匹配度超过预设匹配度阈值的文本信息;
[0142]接收子模块102,被配置为接收用户针对所述显示子模块101所显示的文本信息的选择指令;
[0143]第二文本信息确定子模块103,被配置为根据所述接收子模块102接收到的所述选择指令将用户所选的文本信息确定为所述语音信号对应的文本信息。
[0144]由上述实施例可见,通过显示计算得到的匹配度超过预设匹配度阈值的文本信息,接收用户针对所显示的文本信息的选择指令,根据用户选择指令将用户所选的文本信息确定为接收到的语音信号对应的文本信息,提高了语音识别的速度,满足了用户个性化需求,提高了用户体验。
[0145]如图11所示,图11是本公开根据一示例性实施例示出的另一种语音识别装置的框图,所述装置应用于终端上,并建立图9所示装置的基础上,所述装置还可以包括:拼音索引库建立模块111。
[0146]其中,拼音索引库建立模块111,被配置为建立所述拼音索引库,所述拼音索引库包括各个联系人信息对应的拼音信息,以及每个拼音信息对应的至少一个文本信息。
[0147]如图12所示,图12是本公开根据一示例性实施例示出的另一种语音识别装置的框图,所述装置应用于终端上,并建立图9所示装置的基础上,所述装置还可以包括:拼音索引库更新模块121。
[0148]其中,拼音索引库更新模块121,当检测到所述联系人信息出现增加、减少或变更中任一种变化时,根据所述变化后的联系人信息更新所述拼音索引库。
[0149]与图6相应的,本公开还提供另一种语音识别装置,所述装置可以应用于终端上,包括:
[0150]处理器;
[0151]用于存储处理器可执行指令的存储器;
[0152]其中,所述处理器被配置为:
[0153]接收语音信号;
[0154]根据所述语音信号生成对应的拼音信息;
[0155]根据所述拼音信息检索指定数据库,得到与所述语音信号对应的文本信息。
[0156]上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
[0157]对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0158]如图13所示,图13是本公开根据一示例性实施例示出的一种用于语音识别装置1300的一结构示意图(终端侧)。例如,装置1300可以是具有路由功能的移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
[0159]参照图13,装置1300可以包括以下一个或多个组件:处理组件1302,存储器1304,电源组件1306,多媒体组件1308,音频组件1310,输入/输出(I/0)的接口 1312,传感器组件1314,以及通信组件1316。
[0160]处理组件1302通常控制装置1300的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件1302可以包括一个或多个处理器1320来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件1302可以包括一个或多个模块,便于处理组件1302和其他组件之间的交互。例如,处理组件1302可以包括多媒体模块,以方便多媒体组件1308和处理组件1302之间的交互。
[0161]存储器1304被配置为存储各种类型的数据以支持在装置1300的操作。这些数据的示例包括用于在装置1300上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器1304可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPR0M),可擦除可编程只读存储器(EPR0M),可编程只读存储器(PR0M),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
[0162]电源组件1306为装置1300的各种组件提供电力。电源组件1306可以包括电源管理系统,一个或多个电源,及其他与为装置1300生成、管理和分配电力相关联的组件。
[0163]多媒体组件1308包括在所述装置1300和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件13 08包括一个前置摄像头和/或后置摄像头。当装置1300处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
[0164]音频组件1310被配置为输出和/或输入音频信号。例如,音频组件1310包括一个麦克风(MIC),当装置1300处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1304或经由通信组件1316发送。在一些实施例中,音频组件1310还包括一个扬声器,用于输出音频信号。
[0165]I/O接口 1312为处理组件1302和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
[0166]传感器组件1314包括一个或多个传感器,用于为装置1300提供各个方面的状态评估。例如,传感器组件1314可以检测到装置1300的打开/关闭状态,组件的相对定位,例如所述组件为装置1300的显示器和小键盘,传感器组件1314还可以检测装置1300或装置1300—个组件的位置改变,用户与装置1300接触的存在或不存在,装置1300方位或加速/减速和装置1300的温度变化。传感器组件1314可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1314还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件1314还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器,微波传感器或温度传感器。
[0167]通信组件1316被配置为便于装置1300和其他设备之间有线或无线方式的通信。装置1300可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件1316经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件1316还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
[0168]在示例性实施例中,装置1300可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
[0169]在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器1304,上述指令可由装置1300的处理器1320执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是R0M、随机存取存储器(RAM)、CD-R0M、磁带、软盘和光数据存储设备等。
[0170]本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
[0171]应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
【主权项】
1.一种语音识别方法,其特征在于,所述方法包括: 接收语音信号; 根据所述语音信号生成对应的拼音信息; 根据所述拼音信息检索指定数据库,得到与所述语音信号对应的文本信息。2.根据权利要求1所述的方法,其特征在于,所述语音信号是针对联系人信息的语音信号,所述联系人信息包括联系人姓名和昵称中的任意一种。3.根据权利要求1或2所述的方法,其特征在于,所述根据所述语音信号生成对应的拼音信息,包括: 对所述语音信号进行前端处理,所述前端处理包括端点检测和语音增强; 采用声学模型对所述前端处理后的语音信息进行声学处理,得到对应的音节信息; 将所述音节信息转换为对应的拼音信息。4.根据权利要求3所述的方法,其特征在于,所述将所述音节信息转换为对应的拼音信息,包括: 将所述音节信息转换为至少一种拼音形式的拼音信息,所述拼音形式包括全拼、缩写和简写中的至少一种。5.根据权利要求1或2所述的方法,其特征在于,所述根据所述拼音信息检索指定数据库,得到与所述语音信号对应的文本信息,包括: 在拼音索引库中查询所述拼音信息对应的文本信息; 当确定查询到所述拼音信息对应的至少一个文本信息时,计算所查询到的文本信息与所述拼音信息的匹配度; 根据所述匹配度确定所述语音信号对应的文本信息。6.根据权利要求5所述的方法,其特征在于,所述根据所述匹配度确定所述拼音信息对应的文本信息,包括: 显示所述匹配度超过预设匹配度阈值的文本信息; 接收用户针对所显示的文本信息的选择指令; 根据所述选择指令将用户所选的文本信息确定为所述语音信号对应的文本信息。7.根据权利要求5所述的方法,其特征在于,所述方法还包括: 建立所述拼音索引库,所述拼音索引库包括各个联系人信息对应的拼音信息,以及每个拼音信息对应的至少一个文本信息。8.根据权利要求5所述的方法,其特征在于,所述方法还包括: 当检测到所述联系人信息出现增加、减少或变更中任一种变化时,根据所述变化后的联系人信息更新所述拼音索引库。9.一种语音识别装置,其特征在于,所述装置包括: 接收模块,被配置为接收语音信号; 拼音信息生成模块,被配置为根据所述接收模块接收到的所述语音信号生成对应的拼音信息; 文本信息确定模块,被配置为根据所述拼音信息生成模块生成的所述拼音信息检索指定数据库,得到与所述语音信号对应的文本信息。10.根据权利要求9所述的装置,其特征在于,所述接收模块接收到的语音信号是针对联系人信息的语音信号,所述联系人信息包括联系人姓名和昵称中的任意一种。11.根据权利要求9或10所述的装置,其特征在于,所述拼音信息生成模块包括: 前端处理子模块,被配置为对所述语音信号进行前端处理,所述前端处理包括端点检测和语音增强; 声学处理子模块,被配置为采用声学模型对所述前端处理子模块处理后的语音信息进行声学处理,得到对应的音节信息; 第一转换子模块,被配置为将所述声学处理子模块得到的所述音节信息转换为对应的拼音信息。12.根据权利要求11所述的装置,其特征在于,所述第一转换子模块包括: 第二转换子模块,被配置为将所述音节信息转换为至少一种拼音形式的拼音信息,所述拼音形式包括全拼、缩写和简写中的至少一种。13.根据权利要求9或10所述的装置,其特征在于,所述文本信息确定模块包括: 查询子模块,被配置为在拼音索引库中查询所述拼音信息对应的文本信息; 计算子模块,被配置为当所述查询子模块确定查询到所述拼音信息对应的至少一个文本信息时,计算所查询到的文本信息与所述拼音信息的匹配度; 第一文本信息确定子模块,被配置为根据所述计算子模块计算得到的所述匹配度确定所述语音信号对应的文本信息。14.根据权利要求13所述的装置,其特征在于,所述第一文本信息确定子模块包括: 显示子模块,被配置为显示所述匹配度超过预设匹配度阈值的文本信息; 接收子模块,被配置为接收用户针对所述显示子模块所显示的文本信息的选择指令;第二文本信息确定子模块,被配置为根据所述接收子模块接收到的所述选择指令将用户所选的文本信息确定为所述语音信号对应的文本信息。15.根据权利要求13所述的装置,其特征在于,所述装置还包括: 拼音索引库建立模块,被配置为建立所述拼音索引库,所述拼音索引库包括各个联系人信息对应的拼音信息,以及每个拼音信息对应的至少一个文本信息。16.根据权利要求13所述的装置,其特征在于,所述装置还包括: 拼音索引库更新模块,当检测到所述联系人信息出现增加、减少或变更中任一种变化时,根据所述变化后的联系人信息更新所述拼音索引库。17.一种语音识别装置,其特征在于,所述装置包括: 处理器; 用于存储处理器可执行指令的存储器; 其中,所述处理器被配置为: 接收语音信号; 根据所述语音信号生成对应的拼音信息; 根据所述拼音信息检索指定数据库,得到与所述语音信号对应的文本信息。
【专利摘要】本公开是关于语音识别方法及装置,所述方法包括:接收语音信号;根据所述语音信号生成对应的拼音信息;根据所述拼音信息检索指定数据库,得到与所述语音信号对应的文本信息。因此,本公开可以通过拼音信息将语音信号和文本信息进行隔离,并通过该拼音信息作为中间结果,提高了语音识别的准确度,还容易扩充新的文本信息,提高了用户体验。
【IPC分类】G10L15/26
【公开号】CN105489220
【申请号】CN201510844297
【发明人】徐会生, 王树圆, 赵铁壮, 汪仲伟, 邱钺, 浮强
【申请人】小米科技有限责任公司
【公开日】2016年4月13日
【申请日】2015年11月26日

最新回复(0)