本发明涉及目标追踪技术,具体来说是一种基于自适应感知的通用型多模态目标跟踪模型、训练方法、应用。
背景技术:
1、在复杂的现实场景中,仅仅依赖rgb来进行单个对象跟踪被证明是明显不够的。特别是在缺乏光照、目标运动快速和背景干扰的情况下,这些方法的跟踪精度显著下降。因此,研究人员已经开始探索如何从其他模态数据中提取判别性特征来补充rgb数据,从而增强跟踪器在真实复杂环境中的准确率和鲁棒性。基于不同的模态组合,多模态跟踪可分为rgb-t(可见光和红外模态)跟踪、rgb-d(可见光和深度模态)跟踪和rgb-e(可见光和事件模态)跟踪等子任务。
2、目前的多模态跟踪研究主要分为两类:(1)针对特定的子任务设计模型结构并训练模型参数。由于相比于深度信息和事件信息,热红外信息的获取难度较低,因此rgb-t跟踪是研究最为广泛和深入的子任务。早期的rgb-t跟踪工作(例如:real-time grayscale-thermal tracking via laplacian sparse representation、fusion tracking in colorand infrared images using joint sparse representation和multiple source datafusion via sparse representation for robust visual tracking等)利用稀疏表示模型来抑制特征噪声并建模多模态特征。然而,这些方法在实时性和鲁棒性方面表现不佳。一些工作(例如:multi-adapter rgbt tracking、rgbt tracking via multi-adapternetwork with hierarchical divergence loss和siamese infrared and visible lightfusion network for rgb-t tracking等)设计了专门的分支结构来提取模态共享和模态特定信息,以增强多模态特征的表征能力,实现了鲁棒的视觉跟踪。但在融合两种模态特征时,存在模态相互抑制的风险。为了解决这一问题,lu等人在论文duality-gated mutualcondition network for rgbt tracking中提出了一种对偶门控互条件网络,利用对偶门控模块提取模态判别性特征,并对另一个模态特征的学习进行指导,同时通过双门控机制过滤冗余和噪声信息。最近的研究(例如:bridging search region interaction withtemplate for rgb-t tracking、revisiting color-event based tracking: a unifiednetwork, dataset, and metric和unified single-stage transformer network forefficient rgb-t tracking等)受到transformer的影响,尝试将特征提取和交互统一到一个网络中,涉及到rgbt和rgbe跟踪领域。而对于rgbd跟踪的研究工作(例如:depthtrack:unveiling the power of rgbd tracking和rgbd1k: a large-scale dataset andbenchmark for rgb-d object tracking)大多是基于rgb-only tracker(如atom、dimp和stark)的拓展。(2)另一种是对各种多模态跟踪子任务使用相同的模型结构,但需要基于特定的跟踪任务训练模型参数。受到提示学习的启发,论文prompting for multi-modaltracking首次在多模态跟踪任务上进行了尝试,它将辅助模态视为一种提示信息与rgb图像进行加权求和形成一个新的三通道图像作为预训练跟踪模型的输入。但是,为了在不同子任务中取得最佳性能,需要手动调整模态的权重。zhu等人在论文visual prompt multi-modal tracking中为基础模型提供了一组可学习的modality-complementary prompters(模态互补提示器),可在前向传播的每个阶段生成合适的提示信息。然而,这些提示器需要针对不同模态进行定制化学习。
3、这些研究工作的扩展性都较差,因为它们都是针对某个多模态跟踪子任务设计的模型结构或者训练得到的模型参数。如果跟踪器的使用环境发生了变化而需要切换其他更为可靠的辅助模态时,这种跟踪器的准确率就会大大降低。并且为每种多模态跟踪子任务都训练不同的模型参数也造成了大量的参数冗余。
4、目前的多模态跟踪研究工作都将多模态跟踪任务分解为特定的子任务。这种划分有助于研究人员针对特定的应用场景开发专门的解决方案,从而降低技术复杂性,从而推动了跨多模态跟踪的各个分支的快速发展。然而,这种方法仅依赖某种单一模态来增辅助rgb跟踪依然具有明显的局限性。例如,引入红外模态虽然可以在低光环境下提高跟踪精度,但当目标物体和背景之间的温度对比很小时,红外模态可能难以提供具有区分性的信息。事件传感器提供密集的时间分辨率,并在很大程度上可以避免运动模糊干扰,但它依赖环境光的变化进行成像,因此在弱光或无光条件下可能难以提供准确的信息。深度模态可以提供一些深度信息,并帮助解决遮挡问题,但由于成像距离的限制,它可能无法提供远距离目标的准确信息。并且这种针对某一种子任务设计的模型在切换到其他子任务上时,很难准确的跟踪到目标,除非重新设计模型结构或者训练模型参数,导致这种方法的可扩展性很差。
5、虽然不同子任务的模态类型有所差别,但是不同模态之间总是存在一些与模态无关的信息,例如目标的位置、大小和运动信息等。这些信息完全可以使用相同的模型结构和参数进行特征提取,而目前的研究工作都忽略的这一现象,造成了大量的参数冗余。
技术实现思路
1、本发明所要解决的技术问题在于针对多模态数据输入,如何实现自适应感知的通用型多模态目标跟踪。
2、本发明通过以下技术手段实现解决上述技术问题的:
3、基于自适应感知的通用型多模态目标跟踪模型,包括:
4、双流嵌入层模块,被配置为可见光和某个辅助模态依次通过双流嵌入层模块进行令牌化,得到可见光模态的模板令牌和搜索区域令牌,以及辅助模态的模板令牌和搜索区域令牌;并对两个模态的模板令牌和搜索区域令牌拼接一个分类令牌;得到两个模态的令牌序列;
5、模态感知模块,被配置为接收两个模态的令牌序列,两个模态令牌序列在所述模态感知模块内进行模态内的特征提取和模板-搜索区域交互,同时被添加的分类令牌捕获对应模态数据的模态信息;输出模态概率和去除分类令牌的令牌序列,定义为输入令牌;
6、模态无关和特定特征表征模块,被配置为接受所述模态概率和所述输入令牌,所述模态无关和特定特征表征模块使用一个模态无关分支提取模态无关的特征,使用四个模态分支提取对应模态特定特征,并将四个模态分支的输出特征与模态概率进行加权求和以保留正确的模态特定特征,最后将模块输出的两个模态的搜索区域的令牌合并在一起送入跟踪头。
7、进一步的,所述双流嵌入层模块包括可见光嵌入层和辅助模态嵌入层;所述可见光模态数据自所述可见光嵌入层输入,红外模态、深度模态、事件模态其中一种模态数据自辅助模态嵌入层输入。
8、进一步的,所述模态感知模块包括模态感知层和模态分类器;
9、所述模态感知层包括多个普通视觉transformer块,所述两个模态的令牌序列输入模态感知层进行模态内的特征提取和模板-搜索区域交互的过程如下:
10、在每个普通视觉transformer块中,首先会有三个线性层将映射成查询q,键k和值v,然后对它们进行自注意力操作:
11、其中表示,下标、和分别表示对应子矩阵属于分类令牌、模板令牌和搜索区域令牌;上式中的注意力权重可以进一步写成如下形式:
12、其中表示模板和搜索区域的令牌之间的相似度度量,其余的子矩阵也是同样的道理;最终,自注意力的输出a可以进一步写作:
13、通过上式,模板令牌和搜索区域令牌在一次自注意力操作中同时实现了自身特征提取和模板-搜索区域特征交互,且和表明了分类令牌也同时完成了与模板令牌和搜索区域令牌之间的交互,聚合了模态信息。
14、进一步的,所述模态感知模块还包括模态分类器;所述模态分类器被配置为具备模态分类的功能;所述模态分类器接收每个普通视觉transformer块输出的进行模态预测,预测过程为:
15、式中,表示分类令牌的细粒度权重,表示模态分类器的预测结果,表示输入数据属于某种模态的概率。
16、进一步的,所述模态无关和特定特征表征模块包括多个全景视觉transformer块;模态分类器输出的模态概率记为,其中的下标表示相应的模态,即依次为可见光模态概率、红外模态概率、深度模态概率、事件模态概率,所述输入令牌被送入每个全景视觉transformer块中;在每个块中,输入令牌经过层归一化、多头自注意力和残差连接生成一组令牌,简记为其中,表示模板令牌,表示搜索区域令牌;然后,捕获与模态无关和特定于模态的特征如下:
17、
18、
19、其中表示专门处理某种模态的前馈网络层,和分别表示模态无关和模态特定令牌,为可学习的温度系数;最后直接将、和相加作为块的输出令牌。
20、进一步的,所述普通视觉transformer块为3个,全景视觉transformer块为9个。
21、本发明还提供一种基于自适应感知的通用型多模态目标跟踪模型的训练方法,包括以下步骤:
22、第一阶段:
23、步骤一:从lasher、depthtrack和visevent的训练数据集中分别随机选择n个视频序列,从这些序列中分别采样得到n对模板-搜索帧,根据初始化的边界框对模板帧区域和搜索帧区域进行裁剪并调整大小,最终得到3批训练数据{(,,,),(,,,),(,,,)},其中z表示模板、x表示搜索区域,上标1、2和3分别表示z和x属于lasher、depthtrack和visevent中的数据,下标r、t、d和e分别表示可见光、红外、深度和事件模态。
24、步骤二:将,,,送入双流嵌入层模块的两个输入层进行前向传播;在前向传播过程中,模态无关和特定特征表征模块直接根据模态类型信息选择对应的模态分支,以保证各模态分支具备提取模态特定特征的能力;
25、步骤三:根据模态分类器以及跟踪头的输出结果,计算损失,其中是用于分类的focal损失,和是用于边界框回归的l1和giou 损失,是用于监督模态分类器的交叉熵损失,表示人为设置的损失函数权重。然后进行反向传播计算参数梯度,但是不进行参数更新;
26、步骤四:将,,,作为输入数据,执行步骤二和步骤三;
27、步骤五:将,,,作为输入数据,执行步骤二和步骤三;
28、步骤六:步骤三到五中产生的梯度会自动累加,此时在统一根据adamw优化算法进行参数更新;
29、步骤七:循环执行步骤一到步骤六,直到模型收敛;
30、第二阶段训练:
31、步骤一:从lasher、depthtrack和visevent的训练数据集中随机选择n个视频序列,并采样得到n对模板-搜索帧,根据初始化的边界框对模板帧区域和搜索帧区域进行裁剪并调整大小,最终得到一个批次的训练数据{(,,,)},其中z表示模板、x表示搜索区域,下标r表示可见光模态,下标x表示辅助模态,为红外、深度或者事件模态其中一种;
32、步骤二:将,,,送入双流嵌入层模块的两个输入层进行前向传播;在这个训练阶段中,模态无关和特定特征表征模块会根据模态分类器输出的模态概率对四个模态分支的输出特征进行特征加权;
33、步骤三:根据跟踪头的输出结果计算损失,各损失函数含义与第一阶段中一样;然后进行反向传播计算参数梯度;
34、步骤四:根据adamw优化算法更新模态无关和特定特征表征模块和跟踪头中的参数,冻结其他参数。
35、本发明还提供一种基于自适应感知的通用型多模态目标跟踪模型的应用。
36、本发明还提供一种处理设备,包括至少一个处理器,以及与所述处理器通信连接的至少一个存储器,其中:所述存储器存储有可被处理器执行的程序指令,所述处理器调用所述程序指令能够执行上述的方法。
37、本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上的方法。
38、本发明的效果在于:
39、基于当前多模态跟踪方法只能解决某一种多模态跟踪任务,其扩展性较差且无法应对更复杂的场景。针对这一问题,提出了一种多种多模态跟踪任务通用的跟踪器。在模型输入层,考虑到可见光模态比红外、深度和事件模态具有更加丰富的语义信息,为了更好的保留这些信息,为可见光模态单独设置了一个嵌入层,为红外、深度和事件模态设置一个共享的嵌入层,这样的设置同样也兼顾了输入层的灵活性,这个双流嵌入层模块的有益效果可以从表6中清楚的看到。为了能够对输入模态进行自适应感知,设计了一个简单有效的模态感知模块,能够同时进行特征提取、特征交互和模态感知。在多模态跟踪中,每个模态都包含一些与模态无关的信息,例如目标的形状、运动和上下文信息等。这些信息有助于捕捉不同模态之间共享的语义信息,从而协助模型理解目标的整体上下文。此外,承载着每种模态独特的视角和信息的模态特定特征也十分关键,它可以促进模型对整体信息的理解和处理能力。通过充分利用模态无关特征和模态特定特征,可以提高模型对复杂多模态数据的感知和分析水平,实现更准确、鲁棒的任务执行。为此,提出了模态无关和特定特征表征模块,这个模块的有益效果在图3可视化出来的特征和得分图中有具体呈现。
40、从表1到表5,在5种多模态跟踪数据集上评估了的方法与其他方法的对比,可以清晰地看出,本发明的方法基本处于最高的水平。
1.基于自适应感知的通用型多模态目标跟踪模型,其特征在于,包括:
2.根据权利要求1所述的基于自适应感知的通用型多模态目标跟踪模型,其特征在于,所述双流嵌入层模块包括可见光嵌入层和辅助模态嵌入层;所述可见光模态数据自所述可见光嵌入层输入,红外模态、深度模态、事件模态其中一种模态数据自辅助模态嵌入层输入。
3.根据权利要求1所述的基于自适应感知的通用型多模态目标跟踪模型,其特征在于,所述模态感知模块包括模态感知层和模态分类器;
4.根据权利要求3所述的基于自适应感知的通用型多模态目标跟踪模型,其特征在于,所述模态感知模块还包括模态分类器;所述模态分类器被配置为具备模态分类的功能;所述模态分类器接收每个普通视觉transformer块输出的进行模态预测,预测过程为:
5.根据权利要求根据权利要求3所述的基于自适应感知的通用型多模态目标跟踪模型,其特征在于,所述模态无关和特定特征表征模块包括多个全景视觉transformer块;模态分类器输出的模态概率记为,其中的下标表示相应的模态,即依次为可见光模态概率、红外模态概率、深度模态概率、事件模态概率,所述输入令牌被送入每个全景视觉transformer块中;在每个块中,输入令牌经过层归一化、自注意力和残差连接生成一组令牌,简记为;然后,捕获与模态无关和特定于模态的特征如下:
6.根据权利要求3所述的基于自适应感知的通用型多模态目标跟踪模型,其特征在于,所述普通视觉transformer块为3个,全景视觉transformer块为9个。
7.基于自适应感知的通用型多模态目标跟踪模型的训练方法,其特征在于,包括以下步骤:
8.基于自适应感知的通用型多模态目标跟踪模型的应用。
9.一种处理设备,其特征在于,包括至少一个处理器,以及与所述处理器通信连接的至少一个存储器,其中:所述存储器存储有可被处理器执行的程序指令,所述处理器调用所述程序指令能够执行权利要求7所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行权利要求7所述的方法。