图像生成模型、图像生成模型的训练方法及装置与流程

xiaoxiao7月前 64

本申请属于人工智能，具体涉及一种图像生成模型、图像生成模型的训练方法及装置。

背景技术：

1、随着aigc(artificial intelligence generated content，生成式人工智能)技术的发展，文生图、文和图生图、图生图、图像外扩、图像局部修改、图像消除等图像生成任务的应用已经越来越广泛。

2、现有技术中，对于文生图任务，需要使用亿级别的训练样本训练得到文生图模型来处理，对于图生图任务，需要在文生图模型的基础上使用百万级别的图生图训练样本训练得到图生图模型来处理，或者，对于图像外扩任务，需要在文生图模型的基础上使用百万级别的图像外扩训练样本训练得到图像外扩模型来处理，或者，对于图像局部修改任务，需要在文生图模型的基础上使用百万级别的图像局部修改训练样本训练得到图像局部修改模型来处理。

3、由此可见，电子设备每处理一种图像生成任务，便需要调用一次对应的模型，操作繁琐，降低了电子设备处理图像生成任务的效率。

技术实现思路

1、本申请的目的是提供一种图像生成模型、图像生成模型的训练方法及装置，能够提高电子设备处理图像生成任务的效率。

2、第一方面，本申请的一些实施例提供了一种图像生成模型，包括：条件编码器、加噪模块和扩散模型，条件编码器和加噪模块分别与扩散模型连接；

3、条件编码器，用于对至少一张原始图像进行编码，得到至少一项图像特征信息，以及用于对每张原始图像的描述文本进行编码，得到至少一项文本特征信息；并基于控制条件、至少一项图像特征信息和至少一项文本特征信息，确定至少一项条件特征信息；控制条件用于指示图像生成任务的类型，条件特征信息是根据图像生成任务的类型确定的；

4、加噪模块，用于基于高斯噪声矩阵和至少一张原始图像的掩码图像，对至少一张原始图像进行加噪处理，得到至少一张噪声图像；

5、扩散模型，用于基于至少一项条件特征信息和至少一张噪声图像，生成至少一张衍生图像，每张衍生图像对应一项条件特征信息和一张噪声图像。

6、第二方面，本申请的一些实施例提供了一种图像生成模型的训练方法，包括：

7、获取至少两个训练样本组，每个训练样本组包括一张样本图像、每张样本图像的描述文本和掩码图像；

8、对至少两个训练样本组中的至少一张样本图像进行编码，得到至少一项图像特征信息，以及对每张样本图像的描述文本进行编码，得到至少一项文本特征信息；

9、基于控制条件、至少一项图像特征信息和至少一项文本特征信息，确定至少一项条件特征信息；控制条件用于指示图像生成任务的类型，条件特征信息是根据图像生成任务的类型确定的；

10、基于至少一张样本图像、至少一张样本图像的掩码图像和至少一项条件特征信息，对初始模型进行训练，得到图像生成模型。

11、第三方面，本申请的一些实施例提供了一种图像生成模型的训练装置，该装置包括：

12、获取单元，用于获取至少两个训练样本组，每个训练样本组包括一张样本图像、每张样本图像的描述文本和掩码图像；

13、编码单元，用于对获取单元获取的至少两个训练样本组中的至少一张样本图像进行编码，得到至少一项图像特征信息，以及对每张样本图像的描述文本进行编码，得到至少一项文本特征信息；

14、确定单元，用于基于控制条件、编码单元得到的至少一项图像特征信息和至少一项文本特征信息，确定至少一项条件特征信息；控制条件用于指示图像生成任务的类型，条件特征信息是根据图像生成任务的类型确定的；

15、训练单元，用于基于获取单元获取的至少一张样本图像、至少一张样本图像的掩码图像和确定单元确定的至少一项条件特征信息，对初始模型进行训练，得到图像生成模型。

16、第四方面，本申请的一些实施例提供了一种电子设备，该电子设备包括处理器和存储器，该存储器存储可在处理器上运行的程序或指令，该程序或指令被处理器执行时实现如第二方面所述的图像生成模型的训练方法的步骤。

17、第五方面，本申请的一些实施例提供了一种可读存储介质，该可读存储介质上存储程序或指令，该程序或指令被处理器执行时实现如第二方面所述的图像生成模型的训练方法的步骤。

18、第六方面，本申请的一些实施例提供了一种芯片，该芯片包括处理器和通信接口，该通信接口和处理器耦合，该处理器用于运行程序或指令，实现如第二方面所述的图像生成模型的训练方法。

19、第七方面，本申请的一些实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如第二方面所述的图像生成模型的训练方法。

20、本申请的一些实施例提供了的图像生成模型，包括条件编码器、加噪模块和扩散模型，条件编码器和加噪模块分别与扩散模型连接；条件编码器，用于对至少一张原始图像进行编码，得到至少一项图像特征信息，以及用于对每张原始图像的描述文本进行编码，得到至少一项文本特征信息；并基于控制条件、至少一项图像特征信息和至少一项文本特征信息，确定至少一项条件特征信息；控制条件用于指示图像生成任务的类型，条件特征信息是根据图像生成任务的类型确定的；加噪模块，用于基于高斯噪声矩阵和至少一张原始图像的掩码图像，对至少一张原始图像进行加噪处理，得到至少一张噪声图像；扩散模型，用于基于至少一项条件特征信息和至少一张噪声图像，生成至少一张衍生图像，每张衍生图像对应一项条件特征信息和一张噪声图像。在上述图像生成模型中，根据图像生成任务的类型确定条件特征信息，以控制图像生成模型执行不同的图像生成任务，并用高斯噪声矩阵和掩码图像对原始图像进行加噪处理，使得图像生成模型不仅能够具备从噪声中生成图像的能力，也能够具备预测、消除或修改掩码图像对应的掩码区域的图像内容的能力，使得图像生成模型能够适应不同类型的图像生成任务，如文生图、图生图、文加图生图、图像局部修改、图像消除、图像外扩等等。如此，一个图像生成模型具备了处理多种类型的图像生成任务的能力，在处理不同类型的图像生成任务时不需要再调用多个不同的模型，提高了处理图像生成任务的效率。

技术特征：

1.一种图像生成模型，其特征在于，包括：条件编码器、加噪模块和扩散模型，所述条件编码器和所述加噪模块分别与所述扩散模型连接；

2.根据权利要求1所述的模型，其特征在于，所述条件编码器，具体用于：

3.根据权利要求1或2所述的模型，其特征在于，所述图像生成模型还包括：图像编码器和图像解码器，所述图像编码器与所述加噪模块连接，所述图像解码器与所述扩散模型连接；

4.一种图像生成模型的训练方法，其特征在于，包括：

5.根据权利要求4所述的方法，其特征在于，所述基于控制条件、所述至少一项图像特征信息和所述至少一项文本特征信息，确定至少一项条件特征信息，包括：

6.根据权利要求4所述的方法，其特征在于，所述基于所述至少一张样本图像、所述至少一张样本图像的掩码图像和所述至少一项条件特征信息，对初始模型进行训练，得到图像生成模型，包括：

7.根据权利要求6所述的方法，其特征在于，所述基于高斯噪声矩阵和所述至少一张样本图像的掩码图像，对所述至少一张样本图像进行加噪处理，得到至少一张噪声图像，包括：

8.根据权利要求4所述的方法，其特征在于，所述基于所述至少一张样本图像、所述至少一张样本图像的掩码图像和所述至少一项条件特征信息，对初始模型进行训练，得到图像生成模型，包括：

9.根据权利要求8所述的方法，其特征在于，所述通过图像编码器，对所述至少一张样本图像进行特征压缩，得到至少一个图像特征矩阵，包括：

10.根据权利要求4所述的方法，其特征在于，所述获取至少两个训练样本组之前，所述方法还包括：

11.根据权利要求4所述的方法，其特征在于，所述获取至少两个训练样本组之前，所述方法还包括：

12.根据权利要求4所述的方法，其特征在于，所述对所述至少两个训练样本组中的至少一张样本图像进行编码，得到至少一项图像特征信息，包括：

13.根据权利要求4所述的方法，其特征在于，所述对每张样本图像的描述文本进行编码，得到至少一项文本特征信息，包括：

14.根据权利要求6或8所述的方法，其特征在于，所述基于所述至少一项条件特征信息和所述至少一张噪声图像，对所述初始模型进行训练，得到所述图像生成模型，包括：

15.根据权利要求14所述的方法，其特征在于，所述通过扩散模型，获取所述至少一张噪声图像的特征信息，并对所述至少一项条件特征信息和所述至少一张噪声图像的特征信息融合处理，得到至少一项融合特征信息之前，所述方法还包括：

16.根据权利要求14所述的方法，其特征在于，所述通过扩散模型，对所述至少一项条件特征信息和所述至少一张噪声图像的特征信息融合处理，得到至少一项融合特征信息，包括：

17.根据权利要求14所述的方法，其特征在于，所述通过所述扩散模型，基于所述至少一项融合特征信息和至少一个加噪向量，确定所述至少一张噪声图像的噪声矩阵，包括：

18.根据权利要求14所述的方法，其特征在于，所述基于所述至少一张噪声图像的噪声矩阵、所述高斯噪声矩阵和所述至少一张样本图像的掩码图像，确定所述至少一张样本图像的噪声损失值，包括：

19.根据权利要求4所述的方法，其特征在于，所述基于所述至少一张样本图像、所述至少一张样本图像的掩码图像和所述至少一项条件特征信息，对初始模型进行训练，得到图像生成模型之后，所述方法还包括：

20.根据权利要求19所述的方法，其特征在于，在所述原始信息包括所述待处理图像、所述描述文本和所述掩码图像的情况下，所述将原始信息输入所述图像生成模型，生成图像或执行图像处理，输出衍生图像，包括：

21.根据权利要求20所述的方法，其特征在于，所述通过所述图像生成模型中的加噪模块，基于高斯噪声矩阵和所述掩码图像，对所述待处理图像进行加噪处理，得到噪声图像之前，所述方法还包括：

22.一种图像生成模型的训练装置，其特征在于，所述装置包括：

23.根据权利要求22所述的装置，其特征在于，所述确定单元，具体用于：

24.根据权利要求22所述的装置，其特征在于，所述装置还包括：

25.根据权利要求24所述的装置，其特征在于，所述处理单元，具体用于：

26.根据权利要求22所述的装置，其特征在于，所述装置还包括：

27.根据权利要求26所述的装置，其特征在于，所述压缩单元，具体用于：

28.根据权利要求22所述的装置，其特征在于，所述获取单元，还用于：

29.根据权利要求22所述的装置，其特征在于，所述获取单元，还用于：

30.根据权利要求22所述的装置，其特征在于，所述编码单元，具体用于：

31.根据权利要求22所述的装置，其特征在于，所述编码单元，具体用于：

32.根据权利要求24或26所述的装置，其特征在于，所述训练单元，具体用于：

33.根据权利要求32所述的装置，其特征在于，所述装置还包括：

34.根据权利要求32所述的装置，其特征在于，所述训练单元，具体用于：

35.根据权利要求32所述的装置，其特征在于，所述训练单元，具体用于：

36.根据权利要求32所述的装置，其特征在于，所述训练单元，具体用于：

37.根据权利要求22所述的装置，其特征在于，所述装置还包括：

38.根据权利要求37所述的装置，其特征在于，所述执行单元，具体用于在所述原始信息包括所述待处理图像、所述描述文本和所述掩码图像的情况下，通过所述图像生成模型中的第一条件编码器，对所述待处理图像进行编码，得到所述待处理图像的图像特征信息，并通过所述图像生成模型的第二条件编码器，对所述描述文本进行编码，得到所述描述文本的文本特征信息，并通过所述图像生成模型中的加噪模块，基于高斯噪声矩阵和所述掩码图像，对所述待处理图像进行加噪处理，得到噪声图像；以及，通过所述图像生成模型中的扩散模型，基于所述图像特征信息、所述文本特征信息和所述噪声图像做图像处理，得到衍生图像。

39.根据权利要求38所述的装置，其特征在于，所述装置还包括：

40.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求4-21任一项所述的图像生成模型的训练方法的步骤。

技术总结
本申请公开了一种图像生成模型、图像生成模型的训练方法及装置，属于人工智能技术领域。图像生成模型包括：条件编码器，用于对至少一张原始图像编码得到至少一项图像特征信息，且用于对每张原始图像的描述文本编码得到至少一项文本特征信息；基于控制条件、至少一项图像特征信息和至少一项文本特征信息确定至少一项条件特征信息；控制条件指示图像生成任务的类型，条件特征信息根据图像生成任务的类型确定；加噪模块，用于基于高斯噪声矩阵和至少一张原始图像的掩码图像对至少一张原始图像加噪得到至少一张噪声图像；扩散模型，用于基于至少一项条件特征信息和至少一张噪声图像生成至少一张衍生图像；条件编码器和加噪模块分别与扩散模型连接。

技术研发人员：张泳祥
受保护的技术使用者：维沃移动通信有限公司
技术研发日：
技术公布日：2024/9/23

专利

最新回复(0)