Modular Network Assembly 和 Vision Transform RoPE 实验 Single Object Tracking on LaSOT

张开发
2026/6/9 13:19:48 15 分钟阅读
Modular Network Assembly 和 Vision Transform RoPE 实验 Single Object Tracking on LaSOT
这篇文章会有些奇怪属于半研究性质内容因为依照合规要求防止滥用其内容不应当被太过简单地广泛公开所以本文示例仅作基本阐述不提供可直接训练的代码。本文对Single Object Tracking做基本阐述。与Object Detection有所不同Single Object Tracking地输入为一张reference frame参照物和一个时间序列的需要Track(追踪标记)地3D图像序列。常规的数据库有OTB-100 GOT-10k LaSOT等。OTB-100 数据库为最原始的经典数据库获取非常复杂其原网站已经停止提供服务而internet archive无法在SCNet或本地正常访问。GOT-10k仍然供服务但需要注册账号。LaSOT仍然可以通过Huggingface原网站访问但不存在于hf-mirror.com的镜像中。LaSOT下载后有70个.zip文件每个文件大约有3GB大小存在20个sequence解压后每个sequence都在一个独立的文件夹中其中有相应的标记信息可供SOT使用。如图所示的LaSOTsequence示例因为输入为两张图本文采用了两种方式。第一种为采用 network module (modular network assembly 模块化神经网络)的应用。第二种为直接采用 ViT 加 RoPE Rotational Positional Embedding) 同时处理两张神经网络。*需要注意的是因合规要求本文两个示例均刻意选择为不良网络参数设置错误且未经过有效训练Average IoU被有效控制在10%以下无工业应用价值。第一种方法模块化神经网络与Agentic AI非常相像但是其多用于第一代人工智能技术作为工具的创造而Agentic AI多用于第二代人工智能技术本身的workflow “runs in a loop”。其核心在于将数个具备已知功能的神经网络组合到一起实现特定目的。模块化神经网络的最大优势就是低成本可控性以及方便工业化快速应用其组成部分各个模块可以分布式部署实现部分版本控制然而实际操作过程中容易受到收敛速度运算速度功能一致性以及准确率的影响。本文的module采用了一个Faster R-CNN一个ResNet和一个Vision Transformer。首先从训练数据库中选择一部分随机数据微调一个Faster R-CNNmodel a。model a可以作为需要被追踪的图像的Regional Proposal Network微调过后的model a不在后期训练中继续改变其参数。随后一个ResNet作为reference frame参照物图像的Feature Extraction Networkmodel b 其输出直接给与Vision TransformerViT。同时一个Skip Connect 将需要被追踪的图像直接输出给一个Projector 裁剪陈patches这与原ViT的操作相同。支持ViT 接受 来自model b的参照物图像的feature同时一个来自skip connect的原参照物的patches以及在CLS token 后model a的追踪图像的regional proposal 的预估位置参数。这组成了UnifiedNetwork, 其中改变后的ViT以及model b的参数需经过训练微调由此形成一个Single Object Tracking的神经网络。第二种方法ViT加RoPE是非常自然地方法在近期的SOT神经网络中也有较为广泛的运用。其核心为采用Rotational Positional Embedding这一好处是可以将transformer的input sequence改变为不定长度这与absolute positonal embedding不同。同时RoPE将token关系改变为relative position相对位置这使得关联度和上下文关联度大大增强。本文所需处理地的问题是Single Object Tracking包含一个Input frame 的projecton 和 reference frame 的projection即图像token的上下文关联于是RoPE相比于absolute positional embedding 更为合适且可以在数据上处理不同图像大小造成的variable input length的问题。具体方法为直接下载一个pretrained ViT with RoPE 然后将projector 改变为通过同一projector将reference frame 和 image frame裁剪为相同大小然后增加CLS token。随后将所有paramater 固定然后将初始的projector和第一个transformer中间的一个transformer以及最后的output layer更改为可训练模式先训练一个epoch (即“去头去尾坎中间”这与逐层解冻不同旨在快速试错)。随后将整个模型参数全部设置为可训练状态再继续训练以此达成 Single Object Tracking的目的。至此一个Single Object Tracking 的实验就完成了。我在找工作HR或项目合作请联系yucongcai_businessoutlook.com与科研相关的请联系yucongcai_researchoutlook.com

更多文章