DisFormer:提高视觉动态预测的准确性和泛化能力

       最新的研究进展已经显示出目标中心的表示方法在视觉动态预测任务中可以显著提升预测精度,并且增加模型的可解释性。这种表示方法通过将视觉场景分解为独立的对象,有助于模型更好地理解和预测场景中的变化。

      尽管在静态图像的解耦表示学习方面已经取得了一些进展,但在视频领域,尤其是在没有对对象可能具有的属性类型做出具体假设的一般性设置中,这方面的工作还相对欠缺。解耦表示通过将对象的不同属性(例如颜色、形状、大小等)分离,可能进一步提高模型对视觉动态的预测能力。

     当前的视觉动态预测方法在处理对象动态时,通常需要依赖于对象属性的显式监督信息,或者在静态图像上进行解耦表示学习。这些方法在处理视频数据时可能存在局限性。

      为了克服现有方法的局限性,并充分利用解耦表示在视频动态预测中的潜力,本文提出了一种新的架构——DisFormer。这一架构旨在通过无监督的方式学习目标中心模型中的解耦表示,并利用这些表示来提高视觉动态预测的准确性和泛化能力。

1 相关工作

1.1 对象中心图像和视频模型

对象中心模型旨在将图像或视频分解为对象和背景,并对每个对象进行单独建模。这类模型通常使用空间注意力机制来发现对象,并使用生成模型或自回归模型来重建图像或视频。例如:

  • AIR:基于空间注意力机制的对象中心模型,通过迭代细化学习对象的表示。AIR模型结合了空间注意力机制和对象中心的学习方法,通过自适应地选择和处理关键区域的信息,提高了模型在计算机视觉任务中的性能和泛化能力
  • MONet:基于空间注意力机制的对象中心模型,通过分解对象和背景来重建图像。
  • SPACE:基于空间注意力机制的对象中心模型,通过分解对象和背景来重建图像,并学习对象的动态。
  • IODINE:基于空间混合模型的对象中心模型,通过分解对象和背景来重建图像,并学习对象的动态。
  • GENESIS:基于空间混合模型的对象中心模型,通过分解对象和背景来重建图像,并学习对象的动态。
  • SLATE:基于空间混合模型的对象中心模型,通过分解对象和背景来重建图像,并学习对象的动态。

1.2 动态预测模型

动态预测模型旨在预测视频帧序列的未来状态。这类模型通常使用自回归模型或生成模型来预测未来帧。例如:

  • Interaction Networks:基于交互网络的对象中心模型,通过学习对象之间的关系来预测其动态。
  • Billiards:基于物理模型的动态预测模型,通过学习物体的运动规律来预测其未来状态。
  • Galileo:基于深度学习和物理引擎的动态预测模型,通过整合物理引擎和深度学习来预测物体的物理属性。
  • GSWM:对象中心生成模型,通过学习对象的表示来预测其动态。
  • SlotFormer:基于槽位注意力的对象中心动态模型,将视频分解为对象和背景,并分别进行建模。

1.3 对象解耦模型

对象解耦模型旨在将对象分解为多个属性,并学习每个属性的表示。这类模型通常使用迭代细化或自编码器来学习解耦表示。例如:

  • Scalor:基于分解和组合的对象解耦模型,通过分解对象和背景来学习解耦表示。
  • SimOne:基于视图不变性和时间抽象的对象解耦模型,通过无监督视频分解来学习解耦表示。
  • Simple Unsupervised Object-Centric Learning:基于简单无监督对象中心学习的解耦模型,通过无监督学习来学习解耦表示。
  • Neural Systematic Binder:基于线性组合的对象解耦模型,通过学习对象属性的概念向量来学习解耦表示。

1.4 DisFormer 与现有方法的区别

与现有方法相比,DisFormer 具有以下特点:

  • 解耦表示: 通过迭代细化将对象分解为多个“块”,每个块代表对象的一个潜在属性,从而学习解耦表示。
  • Transformer 动态预测:利用 Transformer 预测对象未来状态,并能够捕捉对象之间的交互关系。
  • 对象中心表示:直接使用对象表示,而不依赖于特定的对象提取器,因此具有更好的泛化能力。

2 DisFormer模型

DisFormer 是一种基于 Transformer 的视觉动态预测模型,其主要目标是学习解耦的对象表示,并利用该表示来预测对象的未来状态。DisFormer 模型主要由以下四个模块组成:

2.1 遮罩提取器 (Mask Extractor)

遮罩提取器负责提取视频帧中的对象遮罩。DisFormer 使用 SAM (Segment Anything) 模型和 SAVi (Slot Attention for Video) 模型联合提取对象遮罩。

  • SAVi 模型:首先使用 SAVi 模型对视频帧进行对象发现,并生成对象遮罩的粗略估计。
  • SAM 模型:然后使用 SAM 模型对 SAVi 模型生成的遮罩进行细化,生成更精确的对象遮罩。

2.2 块提取器 (Block Extractor)

块提取器负责将对象分解为多个“块”,每个块代表对象的一个潜在属性。块提取器使用迭代细化的方法来学习解耦表示。

  • 初始化:每个对象的块表示初始化为对象表示的线性组合。
  • 迭代细化:块表示通过自注意力机制与对象表示进行交互,并更新其表示,直到收敛。
  • 解耦表示:每个块表示最终表示为一个固定数量的可学习概念向量的线性组合,从而实现解耦表示。

2.3 动态预测器 (Dynamics Predictor)

动态预测器负责预测对象未来状态。动态预测器使用 Transformer 模型来捕捉对象之间的交互关系,并预测对象的未来状态。

  • 线性投影:将每个块表示投影到高维空间。
  • 自注意力机制:使用自注意力机制捕捉对象之间的交互关系。
  • 解码:将预测的对象状态解码为图像。

2.4 解码器 (Decoder)

解码器负责将解耦的对象表示解码为图像。解码器使用空间混合模型来生成图像。

  • 空间广播解码器:将每个块表示解码为 2D 特征图。
  • 卷积神经网络:将 2D 特征图解码为图像。

3实验部分

3.1 数据集

在四个不同的数据集上进行了一系列实验,以评估DisFormer的性能。这些数据集包括两个2D数据集和两个3D数据集,涵盖了从简单的玩具环境到更复杂的3D动态

  • 2D Bouncing Circles (2D-BC):一个包含三个不同颜色球体在 2D 空间中自由运动和碰撞的合成数据集。
  • 2D Bouncing Shapes (2D-BS):一个包含两个圆形和两个正方形在 2D 空间中自由运动和碰撞的合成数据集。
  • OBJ3D:一个包含一个弹性球体进入场景并与其他静止物体碰撞的合成数据集。
  • CLEVRER:一个包含各种形状、颜色和材质的物体在 3D 空间中运动和交互的合成数据集。

3.2 线模型

本文将 DisFormer 与以下两种基线模型进行了比较:

  • GSWM:对象中心生成模型,通过学习对象的表示来预测其动态。模型的目标是提高生成想象力,并且可以通过PyTorch实现
  • SlotFormer:基于槽位注意力的对象中心动态模型,将视频分解为对象和背景,并分别进行建模。使用Transformer网络来建模视频中对象的空间-时间动态关系,并生成未来帧

3.3 评价指标

使用的评估指标包括像素均方误差(PErr)、峰值信噪比(PSNR)、感知损失(LPIPS)和结构相似性指数(SSIM)

  • 像素均方误差(PErr):指均方误差(MSE),用于衡量图像处理前后的质量变化。
  • 峰值信噪比(PSNR):PSNR是“Peak Signal to Noise Ratio”的缩写,即峰值信噪比,是一种评价图像的客观标准。PSNR的单位是dB,数值越大表示失真越小。
  • 感知损失(LPIPS):LPIPS,也称为“感知损失”,用于度量两张图像之间的差别。这个指标通过深度学习模型来评估两个图像之间的感知差异。
  • 结构相似性指数(SSIM):SSIM是“Structural Similarity Index”的缩写,即结构相似性指数,用于衡量两幅图像之间的相似度。SSIM考虑了图像的亮度、对比度和结构三个方面,取值范围在-1到1之间,1表示两幅图像完全相同,-1表示两幅图像完全不同

3.4 实验结果

实验结果表明,DisFormer 在所有数据集上均取得了优于 GSWM 和 SlotFormer 的性能,尤其是在 OOD 设置下。

  • 2D 数据集:DisFormer 在 PErr 和 PSNR 指标上均优于 GSWM 和 SlotFormer,在 OOD 设置下性能提升更为显著。

  • 3D 数据集:DisFormer 在 PSNR 和 SSIM 指标上优于 GSWM 和 SlotFormer,在 OOD 设置下性能提升更为显著。

4 未来方向和局限性

4.1 未来工作方向

  • 更复杂的场景: 将 DisFormer 扩展到更复杂的场景,例如具有更多对象和背景交互的场景。
  • 更复杂的 3D 场景: 将 DisFormer 扩展到更复杂的 3D 场景,并解决 3D 数据集中属性解耦不完全的问题。
  • 动作条件预测: 将 DisFormer 扩展到动作条件视频预测,以便模型能够根据动作预测视频动态。
  • 超参数分析: 深入分析概念数量和块数量等超参数对模型性能的影响,并找到最佳的超参数设置。
  • 真实世界数据集: 在真实世界数据集上进行实验,以评估 DisFormer 在真实场景中的性能。

4.2 局限性

  • 3D 数据集的属性解耦: DisFormer 在 3D 数据集上的属性解耦效果不如 2D 数据集,这可能是由于 3D 场景的复杂性更高。
  • 真实世界数据集的实验: 目前还没有在真实世界数据集上进行实验,因此 DisFormer 在真实场景中的性能还有待验证

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/775409.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【刷题汇总--游游的you、腐烂的苹果、孩子们的游戏(圆圈中最后剩下的数)】

C日常刷题积累 今日刷题汇总 - day0051、游游的you1.1、题目1.2、思路1.3、程序实现 - 蛮力法1.4、程序实现 - 贪心(优化) 2、腐烂的苹果2.1、题目2.2、思路2.3、程序实现 - bfs 3、孩子们的游戏(圆圈中最后剩下的数)3.1、题目3.2、思路3.3、程序实现 -- 环形链表3.4、程序实现…

html+js+css在线倒计时

代码在图片后面 点赞加关注 谢谢大佬照顾&#x1f61c; 图例 时间到前 时间到后 源代码 <!DOCTYPE html> <html lang"en"> <head> <meta charset"UTF-8"> <meta name"viewport" content"widthdevice-width,…

分支与循环

目录 1. if语句 1&#xff09;if 2) else 3&#xff09;分支中包含多条语句 4&#xff09;if嵌套 2.关系操作符 3.条件操作符 4.逻辑操作符&#xff1a;&& || ! 1) 逻辑取反运算符 !​编辑 2 与运算符​编辑 3) 或运算符​编辑 4) 闰年的判断 5) 短路 …

如何使用 SwiftUI 构建 visionOS 应用

文章目录 前言WindowsVolumes沉浸式空间结论 前言 Apple Vision Pro 即将推出&#xff0c;现在是看看 SwiftUI API 的完美时机&#xff0c;这使我们能够将我们的应用程序适应 visionOS 提供的沉浸式世界。苹果表示&#xff0c;构建应用程序的最佳方式是使用 Swift 和 SwiftUI。…

鸿蒙本地签名不匹配问题

连接鸿蒙手机运行项目报如下错误 这是由于本地签名和鸿蒙设备签名不匹配导致的&#xff0c;需要注释掉如下代码&#xff0c;选择file project 自动签名 勾选auto选项&#xff0c;会在build-profile.json5中生成一个签名&#xff0c;然后运行就ok了~

NXP i.MX8系列平台开发讲解 - 3.18 Linux tty子系统介绍(一)

专栏文章目录传送门&#xff1a;返回专栏目录 Hi, 我是你们的老朋友&#xff0c;主要专注于嵌入式软件开发&#xff0c;有兴趣不要忘记点击关注【码思途远】 目录 1. TTY 起源 2. Linux 系统中的TTY 2.1 Linux TTY 设备形式 2.2 Linux TTY framework 2.3 驱动核心相关文件…

「植物大战僵尸杂交版」保姆级攻略大全以及下载指南

植物大战僵尸杂交版自推出以来&#xff0c;以其独特的植物组合和策略玩法&#xff0c;迅速赢得了玩家们的喜爱。如果你正准备加入这场植物与僵尸的战斗&#xff0c;或者已经在战斗中寻求突破&#xff0c;那么这份保姆级的攻略大全将是你的得力助手。同时&#xff0c;我们也提供…

PLL和CDR的内部结构及其区别

比较PLL和CDR的内部结构及其区别&#xff1a; 基本结构&#xff1a; PLL&#xff08;相位锁定环&#xff09;&#xff1a; 相位检测器环路滤波器压控振荡器&#xff08;VCO&#xff09;分频器&#xff08;可选&#xff0c;用于频率合成&#xff09; CDR&#xff08;时钟数据恢复…

complex复数库学习

此头文件是数值库的一部分。本篇介绍complex的基本用法。 常用的API如下&#xff1a; 运算 real 返回实部 (函数模板) imag 返回虚部 (函数模板) abs(std::complex) 返回复数的模 (函数模板) arg 返回辐角 (函数模板) norm 返回模(范数)的平方 (函数模板) conj 返回复共轭 (函…

GuLi商城-商品服务-API-品牌管理-效果优化与快速显示开关

<template><div class"mod-config"><el-form :inline"true" :model"dataForm" keyup.enter.native"getDataList()"><el-form-item><el-input v-model"dataForm.key" placeholder"参数名&qu…

首个“可控”人物视频生成大模型--商汤Vimi:一张照片生成一分钟视频

商汤科技又整大活了&#xff0c;只需一张照片就能生成一分钟视频&#xff01; 7月4日&#xff0c;商汤发布了业内首个面向C端用户的、“可控”人物视频生成大模型产品Vimi&#xff0c;毫不夸张的说&#xff0c;视频制作者的福音来了&#xff01; Vimi有什么特别之处&#xff1…

Python爬虫零基础实战,简洁实用!

1.爬虫简介 简单来讲&#xff0c;爬虫就是一个探测机器&#xff0c;它的基本操作就是模拟人的行为去各个网站溜达&#xff0c;点点按钮&#xff0c;查查数据&#xff0c;或者把看到的信息背回来。就像一只虫子在一幢楼里不知疲倦地爬来爬去。 你可以简单地想象&#xff1a;每个…

Ubuntu 22.04 安装中文字体

笔者在用OpenCV4.9处理图片加水印时&#xff0c;中文乱码。原来是Ubuntu 22.04发行版缺少中文字体支持&#xff0c;因此&#xff0c;笔者就找资料安装了需要的中文字体&#xff0c;特此记录&#xff0c;以备后查。 1、打开终端&#xff1a; 2、更新软件包列表&#xff1a; su…

哏号分治,CF103D - Time to Raid Cowavans

一、题目 1、题目描述 2、输入输出 2.1输入 2.2输出 3、原题链接 103D - Time to Raid Cowavans 二、解题报告 1、思路分析 想了半天数据结构最终选择根号分治 我们考虑 大于 550 的公差直接暴力 小于550 的公差的所有询问&#xff0c;我们直接计算该公差后缀和&#xf…

【Linux进阶】磁盘分区3——目录树,挂载

Linux安装模式下&#xff0c;磁盘分区的选择&#xff08;极重要&#xff09; 在Windows 系统重新安装之前&#xff0c;你可能会事先考虑&#xff0c;到底系统盘C盘要有多大容量&#xff1f;而数据盘D盘又要给多大容量等&#xff0c;然后实际安装的时候&#xff0c;你会发现其实…

Rocky Linux 9.4基于官方源码制作openssh 9.8p1二进制rpm包 —— 筑梦之路

2024年7月1日&#xff0c;openssh 9.8版本发布&#xff0c;主要修复了CVE-2024-6387安全漏洞。 由于centos 7的生命周期在6月30日终止&#xff0c;因此需要逐步替换到Rocky Linux&#xff0c;后续会有更多分享关于Rocky Linux的文章。 环境说明 1. 操作系统版本 cat /etc/o…

【Odoo开源ERP】别把ERP与进销存软件混为一谈

导读&#xff1a;企业使用ERP软件能够实现管理升级&#xff0c;多方信息集成&#xff0c;按照既定策略逻辑运算&#xff0c;生成计划建议&#xff0c;减少人力成本&#xff0c;提高准确率的同时提高经营能力。 ERP&#xff0c;是MRP II的下一代软件&#xff0c;除了MRP II已有的…

(0)2024年基于财务的数据科学项目Python编程基础(Jupyter Notebooks)

目录 前言学习目标&#xff1a;学习内容&#xff1a;大纲 前言 随着数据科学的迅猛发展&#xff0c;其在财务领域的应用也日益广泛。财务数据的分析和预测对于企业的决策过程至关重要。 本专栏旨在通过Jupyter Notebooks这一强大的交互式计算工具&#xff0c;介绍基于财务的数…

Uniapp 默认demo安装到手机里启动只能看得到底tab无法看到加载内容解决方案

Uniapp 默认demo安装到手机里以后&#xff0c;启动APP只能看到底tab栏&#xff0c;无法看到每个tab页对应的内容&#xff0c;HBuilder会有一些这样的报错信息&#xff1a; Waiting to navigate to: /pages/tabBar/API/API, do not operate continuously: 解决方案&#xff1a;…