语音合成系统的优化方法和装置的制造方法

xiaoxiao2021-2-23 276

语音合成系统的优化方法和装置的制造方法
【技术领域】
[0001]本发明涉及语音合成技术领域，尤其涉及一种语音合成系统的优化方法和装置。
【背景技术】
[0002]随着移动互联网和人工智能技术的快速发展，语音播报、听小说、听新闻、智能交互等一系列语音合成的场景越来越多。
[0003]目前，语音合成系统在对文本进行语音合成时，首先对输入的文本进行归一化预处理，然后对文本进行分词、词性标注、注音等操作，再对文本进行韵律等级的预测，以及预测声学参数，最后输出最终的语音结果。
[0004]但是，语音合成系统的配置一般都是固定的，无法根据实际场景及负载情况进行弹性的设置，无法适应不同环境下的语音合成需求。例如:当语音合成系统短时间内接收到大量的语音合成请求时，很有可能超出语音合成系统的负载能力，会造成语音合成请求的堆积，导致用户收到反馈结果延时，从而影响用户使用体验。

【发明内容】

[0005]本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明的一个目的在于提出一种语音合成系统的优化方法，能够根据语音合成系统的负载等级弹性地选择相应的语音合成路径，为用户提供更加稳定的服务，避免延时情况的发生，提升用户使用体验。
[0006]本发明的第二个目的在于提出一种语音合成系统的优化装置。
[0007]为了实现上述目的，本发明第一方面实施例提出了一种语音合成系统的优化方法，包括:接收包含文本信息的语音合成请求;确定在接收到所述语音合成请求时语音合成系统的负载等级；以及选择与所述负载等级对应的语音合成路径，并根据所述语音合成路径对所述文本信息进行语音合成。
[0008]本发明实施例的语音合成系统的优化方法，通过接收包含文本信息的语音合成请求，并确定在接收到语音合成请求时语音合成系统的负载等级，以及选择与负载等级对应的语音合成路径，并根据语音合成路径对文本信息进行语音合成，能够根据语音合成系统的负载等级弹性地选择相应的语音合成路径，从而实现语音合成，为用户提供更加稳定的服务，避免延时情况的发生，提升用户使用体验。
[0009]本发明第二方面实施例提出了一种语音合成系统的优化装置，包括:接收模块，用于接收包含文本信息的语音合成请求;确定模块，用于确定在接收到所述语音合成请求时语音合成系统的负载等级；以及合成模块，用于选择与所述负载等级对应的语音合成路径，并根据所述语音合成路径对所述文本信息进行语音合成。
[0010]本发明实施例的语音合成系统的优化装置，通过接收包含文本信息的语音合成请求，并确定在接收到语音合成请求时语音合成系统的负载等级，以及选择与负载等级对应的语音合成路径，并根据语音合成路径对文本信息进行语音合成，能够根据语音合成系统的负载等级弹性地选择相应的语音合成路径，从而实现语音合成，为用户提供更加稳定的服务，避免延时情况的发生，提升用户使用体验。
【附图说明】
[0011]图1是根据本发明一个实施例的语音合成系统的优化方法的流程图；
[0012]图2是根据本发明一个具体实施例的语音合成系统的优化方法的流程图；
[0013]图3是根据本发明一个具体实施例的语音合成系统的框架结构示意图；
[0014]图4是根据本发明一个实施例的语音合成系统的优化装置的结构示意图。
【具体实施方式】
[0015]下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。
[0016]下面参考附图描述本发明实施例的语音合成系统的优化方法和装置。
[0017]图1是根据本发明一个实施例的语音合成系统的优化方法的流程图。
[0018]如图1所示，语音合成系统的优化方法可包括:
[0019]S1、接收包含文本信息的语音合成请求。
[0020]其中，语音合成请求可包括多种场景，例如将好友发来的短信等文字信息转换成语音、将小说的文本信息转换成语音进行播放等等。
[0021]在本发明的一个实施例中，可接收用户通过各种客户端如网页客户端、APP客户端发出的语音合成请求。
[0022]S2、确定在接收到语音合成请求时语音合成系统的负载等级。
[0023]具体地，在接收到语音合成请求时，可获取当前时刻语音合成系统接收到的语音合成请求数量以及这些语音合成请求对应的平均响应时间，然后根据语音合成请求数量和平均响应时间确定负载等级。当语音合成请求数量小于响应请求能力，且平均响应时间小于预设时间时，确定负载等级为第一等级；当语音合成请求数量小于响应请求能力，且平均响应时间大于预设时间时，确定负载等级为第二等级；当语音合成请求数量大于响应请求能力时，确定负载等级为第三等级。
[0024]举例来说，语音合成系统的后台由服务器集群构成，假设服务器集群的响应请求能力为每秒响应500个请求，而此时语音合成系统在1秒钟内，接收到的语音合成请求数量为100个，并且这100个语音合成请求的平均响应时间小于预设时间500毫秒，则可确定当前语音合成系统并未超负载，且性能良好，负载等级为第一等级。假设语音合成系统在1秒钟内，接收到的语音合成请求数量为100个，但是这100个语音合成请求的平均响应时间大于预设时间500毫秒，则可确定当前语音合成系统虽然未超负载，但是性能已经开始降低，负载等级为第二等级。假设语音合成系统在1秒钟内，接收到的语音合成请求数量为1000个，则说明当前语音合成系统超负载，负载等级为第三等级。
[0025]S3、选择与负载等级对应的语音合成路径，并根据语音合成路径对文本信息进行语音合成。
[0026]当负载等级为第一等级时，可选择与第一等级对应的第一路径对文本信息进行语音合成。其中，第一路径可包括LSTM(长短时记忆，Long short-term memory)模型和波形拼接模型，波形拼接模型采用第一参数设置。
[0027]当负载等级为第二等级时，可选择与第二等级对应的第二路径对文本信息进行语音合成。其中，第二路径可包括HTS(HMM_based Speech Synthesis System，隐马尔可夫语音合成系统)模型和波形拼接模型，波形拼接模型采用第二参数设置。
[0028]当负载等级为第三等级时，可选择与第三等级对应的第三路径对文本信息进行语音合成。其中，第三路径包括HTS模型和声码器模型。
[0029]在本发明的一个实施例中，语音合成系统在对文本信息进行语音合成时，首先可通过文本预处理模块对输入的文本进行归一化预处理，然后通过文本分析模块对文本进行分词、词性标注、注音等操作，再通过韵律层级预测模块对文本进行韵律等级的预测，以及通过声学模型模块预测声学参数，最后通过语音合成模块输出最终的语音结果。上述五个模块构成了实现语音合成的路径。
[0030]其中，声学模型模块可以通过基于HTS模型实现，同样可以采用基于LSTM模型实现。基于HTS的声学模型在计算性能上优于基于LSTM的声学模型，即基于HTS的声学模型耗时相对较少。而基于LSTM的声学模型在语音合成的自然流畅度方面性能更优。同理，语音合成模块可以采用基于声码器模型的参数生成方法，也可以采用基于波形拼接模型的拼接生成方法。基于声码器模型的语音合成，资源消耗更少，且计算耗时少。基于波形拼接的语音合成，资源消耗较多，且计算耗时长，但是语音合成的质量高。
[0031]也就是说，在实现语音合成的过程中，由于有的模块会有多种可选的实现方式，因此可能会组合出多种不同的实现路径。例如:当语音合成系统的负载等级为第一等级时，语音合成系统的性能良好，可选择LSTM的声学模型和波形拼接模型使得语音合成的效果更好。其中，波形拼接模型中在选取待合成的拼接单元时，可通过对上下文参数、KLD(Kullback-Leibler divergence，相对熵)距离参数、声学参数等参数的预设门限进行设置，设置成第一参数，从而使得选取的拼接单元数量更多，虽然增加了计算量，但是能够从更多的待合成的拼接单元中选取到质量更好的拼接单元，提高了语音合成的效果。当语音合成系统的负载等级为第二等级时，语音合成系统的性能受到一定影响，因此可选择HTS模型和波形拼接模型使得语音合成的效果适中，且处理速度较快。其中，波形拼接模型中在选取待合成的拼接单元时，可通过对上下文参数、KLD距离参数、声学参数等参数的预设门限进行设置，设置成第二参数，从而使得选取的拼接单元数量较少，在保证一定语音合成质量的情况下，提高响应速度。当语音合成系统的负载等级为第三等级时，语音合成系统已经超负载，因此需要选取HTS模型和声码器模型，从而使得响应的速度最快，保证用户及时接收到反馈的语音合成结果。
[0032]本发明实施例的语音合成系统的优化方法，通过接收包含文本信息的语音合成请求，并确定在接收到语音合成请求时语音合成系统的负载等级，以及选择与负载等级对应的语音合成路径，并根据语音合成路径对文本信息进行语音合成，能够根据语音合成系统的负载等级弹性地选择相应的语音合成路径，从而实现语音合成，为用户提供更加稳定的服务，避免延时情况的发生，提升用户使用体验。
[0033]图2是根据本发明一个具体实施例的语音合成系统的优化方法的流程图。
[0034]如图2所示，语音合成系统的优化方法可包括:
[0035]S201、接收多个语音合成请求。
[0036]首先，先简单描述一下语音合成系统的组成框架。语音合成系统在对文本信息进行语音合成时，首先可通过文本预处理模块1对输入的文本进行归一化预处理，然后通过文本分析模块2对文本进行分词、词性标注、注音等操作，再通过韵律层级预测模块3对文本进行韵律等级的预测，以及通过声学模型模块4预测声学参数，最后通过语音合成模块5输出最终的语音结果。如图3所示，上述五个模块构成了实现语音合成的路径。其中，声学模型模块4可以通过基于HTS模型实现，即路径4A，同样可以采用基于LSTM模型实现，即路径4B。基于HTS的声学模型在计算性能上优于基于LSTM的声学模型，即基于HTS的声学模型耗时相对较少。而基于LSTM的声学模型在语音合成的自然流畅度方面性能更优。同理，语音合成模块5可以采用基于声码器模型的参数生成方式，即路径5A，也可以采用基于波形拼接模型的拼接生成方式，即路径5B。基于声码器模型的语音合成，资源消耗更少，且计算耗时少。基于波形拼接的语音合成，资源消耗较多，且计算耗时长，但是语音合成的质量高。
[0037]而在采用基于波形拼接模型的拼接生成方式时，又包括两种方式。第一种方式:波形拼接模型中在选取待合成的拼接单元时，可通过对上下文参数、KLD距离参数、声学参数等参数的预设门限进行设置，设置成第一参数，即路径6A，从而使得选取的拼接单元数量更多，虽然增加了计算量，但是能够从更多的待合成的拼接单元中选取到质量更好的拼接单元，提高了语音合成的效果。第二种方式:波形拼接模型中在选取待合成的拼接单元时，可通过对上下文参数、KLD距离参数、声学参数等参数的预设门限进行设置，设置成第二参数，即路径6B，从而使得选取的拼接单元数量较少，在保证一定语音合成质量的情况下，提高响应速度。因此，语音合成系统提供了多条路径来动态地适应不同的场景。
[0038]在本发明的一个实施例中，语音合成系统可通过web端和app端接收用户发送的语音合成请求。如有的用户可通过web端发送语音合成请求，有的用户可通过app端发送语音合成请求。
[0039]S202、获取语音合成系统的负载等级。
[0040]具体地，可获取语音合成系统在合成语音效果在最佳情况下的QPS(每秒能响应的合成请求数目，Query Per Second)和语音合成请求平均响应时间，可根据上述两个指标将负载等级划分为三个等级。负载等级一:当前语音合成请求负载小于QPS，且平均响应时间小于500ms ；负载等级二:当前语音合成请求负载小于QPS，且平均响应时间大于500ms ；负载等级三:当前语音合成请求负载大于QPS。
[0041 ] S203、根据负载等级选择对应的语音合成路径对文本进行语音合成。
[0042]在确定负载等级后，可根据负载等级动态地选取语音合成路径。
[0043]负载等级一:在该负载等级下，当前语音合成请求负载小于QPS，且平均响应时间小于500ms，说明语音合成系统性能良好，因此可选取语音合成效果较好但较为耗时的路径，即4B-5B-6A。
[0044]负载等级二:在该负载等级下，当前语音合成请求负载小于QPS，但是平均响应时间已经超过500ms，说明语音合成系统性能受到影响，因此可采用路径4A-5B-6B，以提高响应速度。
[0045]负载等级三:在该负载等级下，当前语音合成请求负载大于QPS，说明语音合成系统已经超负载，因此可动态地选择耗时更少、计算更快的路径4A-5A对语音进行合成。
[0046]另外，语音合成系统还可以根据语音合成的应用场景，弹性的规划语音合成路径。举例来说，小说阅读和新闻阅读对语音合成结果的质量要求较高，可设定为X类语音合成请求;而语音播报和与机器人交互对语音合成结果的质量要求较低，可以设定为Y类语音合成请求。
[0047]当语音合成系统处于负载等级一时，接收到的语音合成请求均采用选取语音合成效果较好但较为耗时的路径，即4B-5B-6A ；
[0048]当语音合成系统达到负载等级二时，优先降低Y类语音合成请求的合成效果，即动态地调整Y类语音合成请求采用路径4A-5B-6B进行语音合成。由于Y类语音合成请求采用了耗时较少的语音合成路径，因此语音合成请求的平均响应时间降低。若降低后的响应时间满足负载等级二，则X类语音合成请求仍可采用合成效果较好的路径4B-5B-6A;若降低后的响应时间无法满足负载等级二，则将所有语音合成请求动态地调整为采用4A-5B-6B合成路径进行语音合成。
[0049]同理，当语音合成系统达到负载等级三时，优先降低Y类语音合成请求的的合成效果，即动态地调整Y类语音合成请求采用路径4A-5A进行语音合成，从而降低了语音合成请求的平均响应时间。若降低后的平均响应时间满足小于500ms，则X类语音合成请求可采用路径4B-5B-6A进行语音合成，否则X类语音合成请求采用路径4A-5B-6B进行语音合成。若降低后的平均响应时间仍然超过500ms，则所有语音合成请求均采用路径4A-5A进行语音合成。
[0050]由此，语音合成系统可以更为弹性的应对各种语音合成的应用场景，为用户提供更为稳定的语音合成服务，在语音合成请求流量高峰时，在不增加硬件成本的前提下，提供主动式的应对策略，避免用户收到反馈结果的高延迟。
[0051]为实现上述目的，本发明还提出一种语音合成系统的优化装置。
[0052]图4是根据本发明一个实施例的语音合成系统的优化装置的结构示意图。
[0053]如图4所示，语音合成系统的优化装置可包括:接收模块110、确定模块120和合成模块130。其中，确定模块120可包括获取单元121和确定单元122。
[0054]其中，接收模块110用于接收包含文本信息的语音合成请求。其中，语音合成请求可包括多种场景，例如将好友发来的短信等文字信息转换成语音、将小说的文本信息转换成语音进行播放等等。
[0055]在本发明的一个实施例中，接收模块110可接收用户通过各种客户端如网页客户端、APP客户端发出的语音合成请求。
[0056]确定模块120用于确定在接收到语音合成请求时语音合成系统的负载等级。具体地，在接收到语音合成请求时，获取单元121可获取当前时刻语音合成系统接收到的语音合成请求数量以及这些语音合成请求对应的平均响应时间，然后确定单元122可根据语音合成请求数量和平均响应时间确定负载等级。当语音合成请求数量小于响应请求能力，且平均响应时间小于预设时间时，确定负载等级为第一等级；当语音合成请求数量小于响应请求能力，且平均响应时间大于预设时间时，确定负载等级为第二等级；当语音合成请求数量大于响应请求能力时，确定负载等级为第三等级。
[0057]举例来说，语音合成系统的后台由服务器集群构成，假设服务器集群的响应请求能力为每秒响应500个请求，而此时语音合成系统在1秒钟内，接收到的语音合成请求数量为100个，并且这100个语音合成请求的平均响应时间小于预设时间500毫秒，则可确定当前语音合成系统并未超负载，且性能良好，负载等级为第一等级。假设语音合成系统在1秒钟内，接收到的语音合成请求数量为100个，但是这100个语音合成请求的平均响应时间大于预设时间500毫秒，则可确定当前语音合成系统虽然未超负载，但是性能已经开始降低，负载等级为第二等级。假设语音合成系统在1秒钟内，接收到的语音合成请求数量为1000个，则说明当前语音合成系统超负载，负载等级为第三等级。
[0058]合成模块130用于选择与负载等级对应的语音合成路径，并根据语音合成路径对文本信息进行语音合成。
[0059]当负载等级为第一等级时，合成模块130可选择与第一等级对应的第一路径对文本信息进行语音合成。其中，第一路径可包括LSTM模型和波形拼接模型，波形拼接模型采用第一参数设置。
[0060]当负载等级为第二等级时，合成模块130可选择与第二等级对应的第二路径对文本信息进行语音合成。其中，第二路径可包括HTS模型和波形拼接模型，波形拼接模型采用第二参数设置。
[0061]当负载等级为第三等级时，合成模块130可选择与第三等级对应的第三路径对文本信息进行语音合成。其中，第三路径包括HTS模型和声码器模型。
[0062]在本发明的一个实施例中，语音合成系统在对文本信息进行语音合成时，首先可通过文本预处理模块对输入的文本进行归一化预处理，然后通过文本分析模块对文本进行分词、词性标注、注音等操作，再通过韵律层级预测模块对文本进行韵律等级的预测，以及通过声学模型模块预测声学参数，最后通过语音合成模块输出最终的语音结果。上述五个模块构成了实现语音合成的路径。
[0063]其中，声学模型模块可以通过基于HTS模型实现，同样可以采用基于LSTM模型实现。基于HTS的声学模型在计算性能上优于基于LSTM的声学模型，即基于HTS的声学模型耗时相对较少。而基于LSTM的声学模型在语音合成的自然流畅度方面性能更优。同理，语音合成模块可以采用基于声码器模型的参数生成方法，也可以采用基于波形拼接模型的拼接生成方法。基于声码器模型的语音合成，资源消耗更少，且计算耗时少。基于波形拼接的语音合成，资源消耗较多，且计算耗时长，但是语音合成的质量高。
[0064]也就是说，在实现语音合成的过程中，由于有的模块会有多种可选的实现方式，因此可能会组合出多种不同的实现路径。例如:当语音合成系统的负载等级为第一等级时，语音合成系统的性能良好，可选择LSTM的声学模型和波形拼接模型使得语音合成的效果更好。其中，波形拼接模型中在选取待合成的拼接单元时，可通过对上下文参数、KLD距离参数、声学参数等参数的预设门限进行设置，设置成第一参数，从而使得选取的拼接单元数量更多，虽然增加了计算量，但是能够从更多的待合成的拼接单元中选取到质量更好的拼接单元，提高了语音合成的效果。当语音合成系统的负载等级为第二等级时，语音合成系统的性能受到一定影响，因此可选择HTS模型和波形拼接模型使得语音合成的效果适中，且处理速度较快。其中，波形拼接模型中在选取待合成的拼接单元时，可通过对上下文参数、KLD距离参数、声学参数等参数的预设门限进行设置，设置成第二参数，从而使得选取的拼接单元数量较少，在保证一定语音合成质量的情况下，提高响应速度。当语音合成系统的负载等级为第三等级时，语音合成系统已经超负载，因此需要选取HTS模型和声码器模型，从而使得响应的速度最快，保证用户及时接收到反馈的语音合成结果。
[0065]本发明实施例的语音合成系统的优化装置，通过接收包含文本信息的语音合成请求，并确定在接收到语音合成请求时语音合成系统的负载等级，以及选择与负载等级对应的语音合成路径，并根据语音合成路径对文本信息进行语音合成，能够根据语音合成系统的负载等级弹性地选择相应的语音合成路径，从而实现语音合成，为用户提供更加稳定的服务，避免延时情况的发生，提升用户使用体验。
[0066]在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底” “内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。
[0067]此外，术语 “第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。
[0068]在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体;可以是机械连接，也可以是电连接;可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。
[0069]在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。
[0070]在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0071]尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
【主权项】
1.一种语音合成系统的优化方法，其特征在于，包括以下步骤: 接收包含文本信息的语音合成请求；确定在接收到所述语音合成请求时语音合成系统的负载等级；以及选择与所述负载等级对应的语音合成路径，并根据所述语音合成路径对所述文本信息进行语音合成。2.如权利要求1所述的方法，其特征在于，所述确定在接收到所述语音合成请求时语音合成系统的负载等级，包括: 获取当前时刻语音合成系统接收到的语音合成请求数量以及对应的平均响应时间；根据所述语音合成请求数量和所述平均响应时间确定所述负载等级。3.如权利要求2所述的方法，其特征在于，所述根据所述语音合成数量和所述平均响应时间确定所述负载等级，包括: 当所述语音合成请求数量小于响应请求能力，且所述平均响应时间小于预设时间时，确定所述负载等级为第一等级；当所述语音合成请求数量小于响应请求能力，且所述平均响应时间大于预设时间时，确定所述负载等级为第二等级；当所述语音合成请求数量大于响应请求能力时，确定所述负载等级为第三等级。4.如权利要求3所述的方法，其特征在于，选择与所述负载等级对应的语音合成路径，并根据所述语音合成路径对所述文本信息进行语音合成，包括: 当所述负载等级为第一等级时，选择与所述第一等级对应的第一路径对所述文本信息进行语音合成；当所述负载等级为第二等级时，选择与所述第二等级对应的第二路径对所述文本信息进行语音合成；当所述负载等级为第三等级时，选择与所述第三等级对应的第三路径对所述文本信息进行语音合成。5.如权利要求4所述的方法，其特征在于，所述第一路径包括长短时记忆LSTM模型和波形拼接模型，所述波形拼接模型采用第一参数设置。6.如权利要求4所述的方法，其特征在于，所述第二路径包括隐马尔可夫语音合成系统HTS模型和所述波形拼接模型，所述波形拼接模型采用第二参数设置。7.如权利要求4所述的方法，其特征在于，所述第三路径包括所述HTS模型和声码器模型。8.一种语音合成系统的优化装置，其特征在于，包括: 接收模块，用于接收包含文本信息的语音合成请求；确定模块，用于确定在接收到所述语音合成请求时语音合成系统的负载等级；以及合成模块，用于选择与所述负载等级对应的语音合成路径，并根据所述语音合成路径对所述文本信息进行语音合成。9.如权利要求8所述的装置，其特征在于，所述确定模块，包括: 获取单元，用于获取当前时刻语音合成系统接收到的语音合成请求数量以及对应的平均响应时间；确定单元，用于根据所述语音合成请求数量和所述平均响应时间确定所述负载等级。10.如权利要求9所述的装置，其特征在于，所述确定单元，用于: 当所述语音合成请求数量小于响应请求能力，且所述平均响应时间小于预设时间时，确定所述负载等级为第一等级；当所述语音合成请求数量小于响应请求能力，且所述平均响应时间大于预设时间时，确定所述负载等级为第二等级；当所述语音合成请求数量大于响应请求能力时，确定所述负载等级为第三等级。11.如权利要求10所述的装置，其特征在于，所述合成模块，用于: 当所述负载等级为第一等级时，选择与所述第一等级对应的第一路径对所述文本信息进行语音合成；当所述负载等级为第二等级时，选择与所述第二等级对应的第二路径对所述文本信息进行语音合成；当所述负载等级为第三等级时，选择与所述第三等级对应的第三路径对所述文本信息进行语音合成。12.如权利要求11所述的装置，其特征在于，所述第一路径包括长短时记忆LSTM模型和波形拼接模型，所述波形拼接模型采用第一参数设置。13.如权利要求11所述的装置，其特征在于，所述第二路径包括隐马尔可夫语音合成系统HTS模型和所述波形拼接模型，所述波形拼接模型采用第二参数设置。14.如权利要求11所述的装置，其特征在于，所述第三路径包括所述HTS模型和声码器模型。
【专利摘要】本发明公开了一种语音合成系统的优化方法和装置，其中，语音合成系统的优化方法包括：接收包含文本信息的语音合成请求；确定在接收到语音合成请求时语音合成系统的负载等级；以及选择与负载等级对应的语音合成路径，并根据语音合成路径对文本信息进行语音合成。本发明实施例的语音合成系统的优化方法和装置，通过接收包含文本信息的语音合成请求，并确定在接收到语音合成请求时语音合成系统的负载等级，以及选择与负载等级对应的语音合成路径，并根据语音合成路径对文本信息进行语音合成，能够根据语音合成系统的负载等级弹性地选择相应的语音合成路径，从而实现语音合成，为用户提供更加稳定的服务，避免延时情况的发生，提升用户使用体验。
【IPC分类】G10L13/02, H04L12/721
【公开号】CN105489216
【申请号】CN201610034930
【发明人】郝庆畅, 李秀林, 白洁, 唐海员
【申请人】百度在线网络技术（北京）有限公司
【公开日】2016年4月13日
【申请日】2016年1月19日

2012-2014专利技术

最新回复(0)