Modular Network Assembly 和 Vision Transform RoPE 实验 Single Object Tracking on LaSOT

张开发

• 2026/6/9 13:19:48 • 15 分钟阅读

分享文章

Modular Network Assembly 和 Vision Transform RoPE 实验 Single Object Tracking on LaSOT

这篇文章会有些奇怪属于半研究性质内容因为依照合规要求防止滥用其内容不应当被太过简单地广泛公开所以本文示例仅作基本阐述不提供可直接训练的代码。本文对Single Object Tracking做基本阐述。与Object Detection有所不同Single Object Tracking地输入为一张reference frame参照物和一个时间序列的需要Track(追踪标记)地3D图像序列。常规的数据库有OTB-100 GOT-10k LaSOT等。OTB-100 数据库为最原始的经典数据库获取非常复杂其原网站已经停止提供服务而internet archive无法在SCNet或本地正常访问。GOT-10k仍然供服务但需要注册账号。LaSOT仍然可以通过Huggingface原网站访问但不存在于hf-mirror.com的镜像中。LaSOT下载后有70个.zip文件每个文件大约有3GB大小存在20个sequence解压后每个sequence都在一个独立的文件夹中其中有相应的标记信息可供SOT使用。如图所示的LaSOTsequence示例因为输入为两张图本文采用了两种方式。第一种为采用 network module (modular network assembly 模块化神经网络)的应用。第二种为直接采用 ViT 加 RoPE Rotational Positional Embedding) 同时处理两张神经网络。*需要注意的是因合规要求本文两个示例均刻意选择为不良网络参数设置错误且未经过有效训练Average IoU被有效控制在10%以下无工业应用价值。第一种方法模块化神经网络与Agentic AI非常相像但是其多用于第一代人工智能技术作为工具的创造而Agentic AI多用于第二代人工智能技术本身的workflow “runs in a loop”。其核心在于将数个具备已知功能的神经网络组合到一起实现特定目的。模块化神经网络的最大优势就是低成本可控性以及方便工业化快速应用其组成部分各个模块可以分布式部署实现部分版本控制然而实际操作过程中容易受到收敛速度运算速度功能一致性以及准确率的影响。本文的module采用了一个Faster R-CNN一个ResNet和一个Vision Transformer。首先从训练数据库中选择一部分随机数据微调一个Faster R-CNNmodel a。model a可以作为需要被追踪的图像的Regional Proposal Network微调过后的model a不在后期训练中继续改变其参数。随后一个ResNet作为reference frame参照物图像的Feature Extraction Networkmodel b 其输出直接给与Vision TransformerViT。同时一个Skip Connect 将需要被追踪的图像直接输出给一个Projector 裁剪陈patches这与原ViT的操作相同。支持ViT 接受来自model b的参照物图像的feature同时一个来自skip connect的原参照物的patches以及在CLS token 后model a的追踪图像的regional proposal 的预估位置参数。这组成了UnifiedNetwork, 其中改变后的ViT以及model b的参数需经过训练微调由此形成一个Single Object Tracking的神经网络。第二种方法ViT加RoPE是非常自然地方法在近期的SOT神经网络中也有较为广泛的运用。其核心为采用Rotational Positional Embedding这一好处是可以将transformer的input sequence改变为不定长度这与absolute positonal embedding不同。同时RoPE将token关系改变为relative position相对位置这使得关联度和上下文关联度大大增强。本文所需处理地的问题是Single Object Tracking包含一个Input frame 的projecton 和 reference frame 的projection即图像token的上下文关联于是RoPE相比于absolute positional embedding 更为合适且可以在数据上处理不同图像大小造成的variable input length的问题。具体方法为直接下载一个pretrained ViT with RoPE 然后将projector 改变为通过同一projector将reference frame 和 image frame裁剪为相同大小然后增加CLS token。随后将所有paramater 固定然后将初始的projector和第一个transformer中间的一个transformer以及最后的output layer更改为可训练模式先训练一个epoch (即“去头去尾坎中间”这与逐层解冻不同旨在快速试错)。随后将整个模型参数全部设置为可训练状态再继续训练以此达成 Single Object Tracking的目的。至此一个Single Object Tracking 的实验就完成了。我在找工作HR或项目合作请联系yucongcai_businessoutlook.com与科研相关的请联系yucongcai_researchoutlook.com

更多文章

前端开发 2026/6/1 3:26:50

发散创新：基于Python的卫星通信链路模拟与数据传输优化实践在现代空间信息

发散创新：基于Python的卫星通信链路模拟与数据传输优化实践在现代空间信息网络中，卫星通信正逐步成为全球互联的核心支柱。无论是遥感监测、应急救灾还是远程教育，高效的链路设计与可靠的数据传输是关键。本文将通过一个完整的Python项目实践…

一、Go语言结构体的方法在Go语言中，方法是绑定到特定类型（包括结构体）的函数。它赋予了类型“行为”，是面向对象编程风格的体现，但Go采用组合而非继承。本节将深入探讨结构体方法的所有方面，包括语法、底层…

张开发

前端开发 2026/6/6 3:05:52

如何快速掌握RPG Maker解密工具：面向初学者的完整实战指南

如何快速掌握RPG Maker解密工具：面向初学者的完整实战指南【免费下载链接】RPGMakerDecrypter Tool for decrypting and extracting RPG Maker XP, VX and VX Ace encrypted archives and MV and MZ encrypted files. 项目地址: https://gitcode.com/gh_mirrors/…

张开发

Modular Network Assembly 和 Vision Transform RoPE 实验 Single Object Tracking on LaSOT

最新文章

如何轻松批量下载视频号内容：res-downloader完整指南

高通Camera HAL3实战：从configure_streams到Usecase创建，一次搞懂ZSL拍照背后的完整流程

从天气预报到视频预测：ConvLSTM实战项目入门（附PyTorch完整代码）

别再乱卸载补丁了！Win10共享打印机0x00000709/11b错误，用这个官方修复补丁KB5007253一键搞定

别再只会下载程序了！手把手教你用J-Link的J-Scope和RTT功能做实时数据可视化

mysql如何使用INNER JOIN内连接_mysql等值连接实现方式

推荐文章

相关文章

分享文章

更多文章

发散创新：基于Python的卫星通信链路模拟与数据传输优化实践在现代空间信息

Java NIO的简单封装

用Python解放AutoCAD：告别重复劳动，拥抱高效自动化

【金融级PHP支付配置黄金标准】：20年支付系统架构师亲授，避开97%开发者踩过的5大合规雷区

Spring Boot 4.0 Agent-Ready 架构实战避坑手册：4类ClassLoading冲突、3种Agent卸载失败场景、1套自动化验证脚本

低代码平台与AI Agent的结合：降低AI应用开发门槛

打造沉浸式智能AI问答助手：Vue + UniApp 全端实战（支持 Markdown/公式/多模态交互）唇

C# 14 原生 AOT 集成 Dify SDK（AOT 兼容性黑盒深度拆解）

Windows 7 虚拟机 VMware Tools 安装失败：无法自动安装VSock 驱动程序

【GraalVM生产级避坑白皮书】：12个导致OOM的静态镜像典型误用场景（附JFR+Native Memory Tracking双验证方案）

go语言--笔记--Go语言结构体的方法

如何快速掌握RPG Maker解密工具：面向初学者的完整实战指南