一种对象检测方法以及相关设备与流程

xiaoxiao5月前 63

本发明涉及图像处理，具体涉及一种对象检测方法以及相关设备，该相关设备可以报考对象检测装置、电子设备、计算机程序产品和计算机可读存储介质。

背景技术：

1、近年来，随着计算机视觉技术的飞速发展，多目标跟踪（multi object tracking，mot）技术也越来越成熟。为了提升多目标跟踪的准确性性，往往可以在多目标跟踪的基础上引入文本指令，通过文本指令引导在视频帧中进行对象检测。当前的对象检测方法往往采用交叉注意力机制将图像特征和文本特征进行融合，并通过融合后的视觉文本特征进行对象检测。

2、在对当前技术的研究和实践过程中，本技术的发明人发现在图像特征和文本特征进行融合的过程中，只是进行了一次简单的交叉注意力操作，使得图像特征和文本特征的融合并不充分，较为粗糙，因此，导致对象检测的准确性较低。

技术实现思路

1、本技术实施例提供一种对象检测方法以及相关设备，该相关设备可以报考对象检测装置、电子设备、计算机程序产品和计算机可读存储介质，可以提高对象检测的准确性。

2、一种对象检测方法，包括：

3、获取待检测视频和所述待检测视频对应的检测文本，所述待检测视频包括至少一帧待检测视频帧；

4、对所述待检测视频帧进行特征提取，得到至少一个维度的视觉特征，并对所述检测文本进行特征提取，得到文本特征；

5、计算所述视觉特征与所述文本特征在每一像素位置下的特征相关度，所述特征相关度指示所述视觉特征与所述文本特征在同一像素位置下的相关程度；

6、基于所述特征相关度，将所述视觉特征与所述文本特征进行融合，得到视觉文本特征；

7、根据所述视觉文本特征和所述视觉特征，在所述待检测视频帧中检测出至少一个目标对象。

8、相应的，本技术实施例提供一种对象检测装置，包括：

9、获取单元，用于获取待检测视频和所述待检测视频对应的检测文本，所述待检测视频包括至少一帧待检测视频帧；

10、提取单元，用于对所述待检测视频帧进行特征提取，得到至少一个维度的视觉特征，并对所述检测文本进行特征提取，得到文本特征；

11、计算单元，用于计算所述视觉特征与所述文本特征在每一像素位置下的特征相关度，所述特征相关度指示所述视觉特征与所述文本特征在同一像素位置下的相关程度；

12、融合单元，用于基于所述特征相关度，将所述视觉特征与所述文本特征进行融合，得到视觉文本特征；

13、检测单元，用于根据所述视觉文本特征和所述视觉特征，在所述待检测视频帧中检测出至少一个目标对象。

14、在一些实施例中，所述计算单元，具体可以用于将所述视觉特征与所述文本特征映射至同一特征空间中，得到每一维度的目标视觉特征和所述目标视觉特征对应的目标文本特征；在所述目标视觉特征中提取出每一像素位置对应的视觉子特征，并计算所述视觉子特征与所述目标文本特征之间的特征相关度。

15、在一些实施例中，所述计算单元，具体可以用于在所述视觉特征中识别出特征通道数量，得到视觉通道数量，并在所述文本特征中识别出特征通道数量，得到文本通道数量；基于所述视觉通道数量和所述文本通道数量，确定每一维度对应的特征空间的目标通道数量，并将所述文本词特征进行融合，得到融合后文本特征；将所述视觉特征的通道数量和所述融合后文本特征的通道数量分别调整为所述目标通道数量，得到每一维度的目标视觉特征和所述目标视觉特征对应的目标文本特征。

16、在一些实施例中，所述计算单元，具体可以用于在所述视觉子特征中提取出每一特征通道下的特征，得到视觉通道特征；在所述目标文本特征中筛选出所述视觉通道特征对应的特征通道下的特征，得到文本通道特征；基于所述视觉通道特征和所述文本通道特征，确定所述视觉子特征与所述目标文本特征之间的特征相关度。

17、在一些实施例中，所述计算单元，具体可以用于将所述视觉通道特征与文本通道特征进行融合，得到每一特征通道对应的融合通道特征；将每一像素位置下的所述融合通道特征进行累加，得到每一像素位置对应的目标融合特征；将所述视觉子特征与所述目标文本特征进行融合，得到参考融合特征，并计算所述参考融合特征与所述目标融合特征之间的比值，得到每一像素位置对应的特征相关度。

18、在一些实施例中，所述融合单元，具体可以用于基于所述特征相关度，对所述视觉子特征进行加权，得到每一像素位置对应的初始视觉文本特征；将同一维度的所述初始视觉文本特征进融合，得到每一维度的视觉文本特征。

19、在一些实施例中，所述检测单元，具体可以用于基于所述视觉特征的维度，对所述视觉特征进行排序，并基于排序结果在所述视觉特征中筛选出目标维度的视觉特征，得到当前视觉特征；在所述视觉文本特征中筛选出所述目标维度对应的视觉文本特征，得到当前视觉文本特征；根据所述当前视觉文本特征和当前视觉特征，在所述待检测视频帧中提取出对象特征，并基于所述对象特征，确定所述待检测视频帧中的至少一个目标对象。

20、在一些实施例中，所述检测单元，具体可以用于基于所述当前视觉文本特征和当前视觉特征，对预设对象特征进行更新，并将更新后对象特征作为所述预设对象特征；返回执行所述基于排序结果在所述视觉特征中筛选出目标维度的视觉特征的步骤，直至每一视觉特征均为所述当前视觉特征时为止，得到对象特征。

21、在一些实施例中，所述检测单元，具体可以用于基于所述当前视觉文本特征和当前视觉特征，对预设对象特征进行更新，得到初始对象特征，并将所述初始对象特征作为所述预设对象特征；返回执行所述基于所述当前视觉文本特征和当前视觉特征，对预设对象特征进行更新的步骤，直至达到预设更新次数时为止，得到更新后对象特征。

22、在一些实施例中，所述检测单元，具体可以用于对所述对象子特征进行自注意力加权，得到候选对象特征；对所述候选对象特征、当前视觉文本特征和当前视觉特征进行交叉注意力加权，得到当前对象特征；将所述当前对象特征映射至预设对象特征空间，得到初始对象特征。

23、在一些实施例中，所述提取单元，具体可以用于对所述待检测视频帧进行多尺度特征提取，得到至少一个特征尺度的初始视觉特征；对所述初始视觉特征进行预处理，以得到至少一个维度的候选视觉特征；根据预设交互方向，对所述候选视觉特征进行特征交互，得到至少一个维度的视觉特征。

24、在一些实施例中，所述提取单元，具体可以用于基于所述特征尺度，在所述初始视觉特征中筛选出目标初始视觉特征，并对所述目标初始视觉特征的尺寸进行调整，得到调整后视觉特征；将所述调整后视觉特征与预设位置特征进行拼接，得到拼接后视觉特征，所述拼接后视觉特征包括至少一个视觉子特征；对所述视觉子特征进行自注意力加权，得到加权后视觉特征，并基于所述加权后视觉特征对所述初始视觉特征进行更新，得到至少一个维度的候选视觉特征。

25、在一些实施例中，所述提取单元，具体可以用于基于所述候选视觉特征的特征尺寸，对所述候选视觉特征进行排序，得到第一尺寸排序结果；根据所述第一尺寸排序结果，对所述候选视觉特征按照所述第一交互方向进行特征交互，得到至少一个候选交互特征；基于所述候选交互特征的特征尺寸，对所述候选交互特征进行排序，得到第二尺寸排序结果；根据所述第二尺寸排序结果，对所述候选交互特征按照所述第二交互方向进行特征交互，得到至少一个交互特征，并将每一交互特征作为一个维度的视觉特征。

26、在一些实施例中，所述提取单元，具体可以用于在所述候选视觉特征中筛选出特征尺寸最小的候选视觉特征，得到当前候选视觉特征，并将所述当前候选视觉特征作为第一候选交互特征；基于所述第一尺寸排序结果，在所述候选视觉特征中筛选出所述当前候选视觉特征的下一候选视觉特征，得到所述当前候选视觉特征的第一待交互特征；将所述当前候选视觉特征与所述第一待交互特征进行融合，得到第二候选交互特征，并将所述第一待交互特征作为所述当前候选视觉特征；返回执行所述基于所述第一尺寸排序结果，在所述候选视觉特征中筛选出所述当前候选视觉特征的下一候选视觉特征的步骤，直至所有候选视觉特征完成特征交互时为止，得到至少一个候选交互特征，所述候选交互特征包括所述第一候选交互特征和所述第二候选交互特征。

27、在一些实施例中，所述提取单元，具体可以用于对所述当前候选视觉特征进行特征通道转换，得到预设通道数量的转换后视觉特征；对所述转换后视觉特征的特征尺寸进行放大，得到放大后视觉特征，所述放大后视觉特征的特征尺寸与所述第一待交互特征的特征尺寸相同；对所述第一待交互特征进行特征通道转换，得到所述预设通道数量的转换后第一待交互特征；将所述放大后视觉特征与所述转换后第一待交互特征进行拼接，得到第二候选交互特征。

28、在一些实施例中，所述提取单元，具体可以用于在所述候选交互特征中筛选出特征尺寸最大的候选交互特征，得到当前交互特征，并将所述当前交互特征中不同特征通道的特征进行融合，得到第一交互特征；基于所述第二尺寸排序结果，在所述候选交互特征中筛选出所述当前交互特征的下一候选交互特征，得到所述当前交互特征的第二待交互特征；将所述当前交互特征与所述第二待交互特征进行融合，得到第二交互特征，并将所述第二待交互特征作为所述当前交互特征；返回执行所述基于所述第二尺寸排序结果，在所述候选交互特征中筛选出所述当前交互特征的下一候选交互特征的步骤，直至所有候选交互特征完成特征交互时为止，得到至少一个交互特征，所述交互特征包括所述第一交互特征和所述第二交互特征。

29、此外，本技术实施例还提供一种电子设备，包括处理器和存储器，所述存储器存储有应用程序，所述处理器用于运行所述存储器内的应用程序，以执行本技术实施例提供的对象检测方法。

30、此外，本技术实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本技术实施例所提供的任一种对象检测方法中的步骤。

31、此外，本技术实施例还提供一种计算机程序产品，包括计算机程序或指令，该计算机程序或指令被处理器执行时实现本技术实施例提供的对象检测方法中的步骤。

32、本技术实施例在获取待检测视频和待检测视频对应的检测文本后，对待检测视频中的待检测视频帧进行特征提取，得到至少一个维度的视觉特征，并对检测文本进行特征提取，得到文本特征，然后，计算视觉特征与文本特征在每一像素位置下的特征相关度，基于特征相关度，将视觉特征与文本特征进行融合，得到视觉文本特征，然后，根据视觉文本特征和视觉特征，在待检测视频帧中检测出至少一个目标对象；由于该方案可以在提取出视频特征和文本特征之后，计算视觉特征与文本特征在每一像素位置下的特征相关度，并通过特征相关度将视觉特征与文本特征进行融合，在融合过程中采用像素级别的图文特征融合方式，从而可以实现视觉特征和文本特征之间细粒度融合，因此，可以提升对象检测的准确性。

技术特征：

1.一种对象检测方法，其特征在于，包括：

2.根据权利要求1所述的对象检测方法，其特征在于，所述计算所述视觉特征与所述文本特征在每一像素位置下的特征相关度，包括：

3.根据权利要求2所述的对象检测方法，其特征在于，所述文本特征包括至少一个文本词特征，所述将所述视觉特征与所述文本特征映射至同一特征空间中，得到每一维度的目标视觉特征和所述目标视觉特征对应的目标文本特征，包括：

4.根据权利要求2所述的对象检测方法，其特征在于，所述计算所述视觉子特征与所述目标文本特征之间的特征相关度，包括：

5.根据权利要求4所述的对象检测方法，其特征在于，所述基于所述视觉通道特征和文本特征通道，确定所述视觉子特征与所述目标文本特征之间的特征相关度，包括：

6.根据权利要求2所述的对象检测方法，其特征在于，所述基于所述特征相关度，将所述视觉特征与所述文本特征进行融合，得到视觉文本特征，包括：

7.根据权利要求1至6任一项所述的对象检测方法，其特征在于，所述根据所述视觉文本特征和所述视觉特征，在所述待检测视频帧中检测出至少一个目标对象，包括：

8.根据权利要求7所述的对象检测方法，其特征在于，所述根据所述当前视觉文本特征和当前视觉特征，在所述待检测视频帧中提取出对象特征，包括：

9.根据权利要求8所述的对象检测方法，其特征在于，所述基于所述当前视觉文本特征和当前视觉特征，对预设对象特征进行更新，包括：

10.根据权利要求9所述的对象检测方法，其特征在于，所述预设对象特征包括至少一个对象子特征，所述基于所述当前视觉文本特征和当前视觉特征，对预设对象特征进行更新，得到初始对象特征，包括：

11.根据权利要求1至6任一项所述的对象检测方法，其特征在于，所述对所述待检测视频帧进行特征提取，得到至少一个维度的视觉特征，包括：

12.根据权利要求11所述的对象检测方法，其特征在于，所述对所述初始视觉特征进行预处理，以得到至少一个维度的候选视觉特征，包括：

13.根据权利要求11所述的对象检测方法，其特征在于，所述预设交互方向包括第一交互方向和第二交互方向，所述根据预设交互方向，对所述候选视觉特征进行特征交互，得到至少一个维度的视觉特征，包括：

14.根据权利要求13所述的对象检测方法，其特征在于，所述根据所述第一尺寸排序结果，对所述候选视觉特征按照所述第一交互方向进行特征交互，得到至少一个候选交互特征，包括：

15.根据权利要求14所述的对象检测方法，其特征在于，所述将所述当前候选视觉特征与所述待交互特征进行融合，得到第二候选交互特征，包括：

16.根据权利要求13所述的对象检测方法，其特征在于，所述根据所述第二尺寸排序结果，对所述候选交互特征按照所述第二交互方向进行特征交互，得到至少一个交互特征，包括：

17.一种对象检测装置，其特征在于，包括：

18.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有应用程序，所述处理器用于运行所述存储器内的应用程序，以执行权利要求1至16任一项所述的对象检测方法中的步骤。

19.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1至16任一项所述的对象检测方法中的步骤。

20.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至16任一项所述的对象检测方法中的步骤。

技术总结
本申请实施例公开了一种对象检测方法以及相关设备，该相关设备可以包括对象检测装置、电子设备、计算机程序产品和计算机可读存储介质；本申请实施例在获取待检测视频和待检测视频对应的检测文本后，对待检测视频中的待检测视频帧进行特征提取，得到至少一个维度的视觉特征，并对检测文本进行特征提取，得到文本特征，然后，计算视觉特征与文本特征在每一像素位置下的特征相关度，基于特征相关度，将视觉特征与文本特征进行融合，得到视觉文本特征，然后，根据视觉文本特征和视觉特征，在待检测视频帧中检测出至少一个目标对象；该方案可以提升对象检测的准确性。

技术研发人员：赵泽勇,郝彦超,李博,张明昊,刘庆斌,陈曦
受保护的技术使用者：腾讯科技（深圳）有限公司
技术研发日：
技术公布日：2024/9/23

专利

最新回复(0)