DisFormer：提高视觉动态预测的准确性和泛化能力

最新的研究进展已经显示出目标中心的表示方法在视觉动态预测任务中可以显著提升预测精度，并且增加模型的可解释性。这种表示方法通过将视觉场景分解为独立的对象，有助于模型更好地理解和预测场景中的变化。

尽管在静态图像的解耦表示学习方面已经取得了一些进展，但在视频领域，尤其是在没有对对象可能具有的属性类型做出具体假设的一般性设置中，这方面的工作还相对欠缺。解耦表示通过将对象的不同属性（例如颜色、形状、大小等）分离，可能进一步提高模型对视觉动态的预测能力。

当前的视觉动态预测方法在处理对象动态时，通常需要依赖于对象属性的显式监督信息，或者在静态图像上进行解耦表示学习。这些方法在处理视频数据时可能存在局限性。

为了克服现有方法的局限性，并充分利用解耦表示在视频动态预测中的潜力，本文提出了一种新的架构——DisFormer。这一架构旨在通过无监督的方式学习目标中心模型中的解耦表示，并利用这些表示来提高视觉动态预测的准确性和泛化能力。

1 相关工作

1.1 对象中心图像和视频模型

对象中心模型旨在将图像或视频分解为对象和背景，并对每个对象进行单独建模。这类模型通常使用空间注意力机制来发现对象，并使用生成模型或自回归模型来重建图像或视频。例如：

AIR：基于空间注意力机制的对象中心模型，通过迭代细化学习对象的表示。AIR模型结合了空间注意力机制和对象中心的学习方法，通过自适应地选择和处理关键区域的信息，提高了模型在计算机视觉任务中的性能和泛化能力
MONet：基于空间注意力机制的对象中心模型，通过分解对象和背景来重建图像。
SPACE：基于空间注意力机制的对象中心模型，通过分解对象和背景来重建图像，并学习对象的动态。
IODINE：基于空间混合模型的对象中心模型，通过分解对象和背景来重建图像，并学习对象的动态。
GENESIS：基于空间混合模型的对象中心模型，通过分解对象和背景来重建图像，并学习对象的动态。
SLATE：基于空间混合模型的对象中心模型，通过分解对象和背景来重建图像，并学习对象的动态。

1.2 动态预测模型

动态预测模型旨在预测视频帧序列的未来状态。这类模型通常使用自回归模型或生成模型来预测未来帧。例如：

Interaction Networks：基于交互网络的对象中心模型，通过学习对象之间的关系来预测其动态。
Billiards：基于物理模型的动态预测模型，通过学习物体的运动规律来预测其未来状态。
Galileo：基于深度学习和物理引擎的动态预测模型，通过整合物理引擎和深度学习来预测物体的物理属性。
GSWM：对象中心生成模型，通过学习对象的表示来预测其动态。
SlotFormer：基于槽位注意力的对象中心动态模型，将视频分解为对象和背景，并分别进行建模。

1.3 对象解耦模型

对象解耦模型旨在将对象分解为多个属性，并学习每个属性的表示。这类模型通常使用迭代细化或自编码器来学习解耦表示。例如：

Scalor：基于分解和组合的对象解耦模型，通过分解对象和背景来学习解耦表示。
SimOne：基于视图不变性和时间抽象的对象解耦模型，通过无监督视频分解来学习解耦表示。
Simple Unsupervised Object-Centric Learning：基于简单无监督对象中心学习的解耦模型，通过无监督学习来学习解耦表示。
Neural Systematic Binder：基于线性组合的对象解耦模型，通过学习对象属性的概念向量来学习解耦表示。

1.4 DisFormer 与现有方法的区别

与现有方法相比，DisFormer 具有以下特点：

解耦表示：通过迭代细化将对象分解为多个“块”，每个块代表对象的一个潜在属性，从而学习解耦表示。
Transformer 动态预测：利用 Transformer 预测对象未来状态，并能够捕捉对象之间的交互关系。
对象中心表示：直接使用对象表示，而不依赖于特定的对象提取器，因此具有更好的泛化能力。

2 DisFormer模型

DisFormer 是一种基于 Transformer 的视觉动态预测模型，其主要目标是学习解耦的对象表示，并利用该表示来预测对象的未来状态。DisFormer 模型主要由以下四个模块组成：

2.1 遮罩提取器 (Mask Extractor)

遮罩提取器负责提取视频帧中的对象遮罩。DisFormer 使用 SAM (Segment Anything) 模型和 SAVi (Slot Attention for Video) 模型联合提取对象遮罩。

SAVi 模型：首先使用 SAVi 模型对视频帧进行对象发现，并生成对象遮罩的粗略估计。
SAM 模型：然后使用 SAM 模型对 SAVi 模型生成的遮罩进行细化，生成更精确的对象遮罩。

2.2 块提取器 (Block Extractor)

块提取器负责将对象分解为多个“块”，每个块代表对象的一个潜在属性。块提取器使用迭代细化的方法来学习解耦表示。

初始化：每个对象的块表示初始化为对象表示的线性组合。
迭代细化：块表示通过自注意力机制与对象表示进行交互，并更新其表示，直到收敛。
解耦表示：每个块表示最终表示为一个固定数量的可学习概念向量的线性组合，从而实现解耦表示。

2.3 动态预测器 (Dynamics Predictor)

动态预测器负责预测对象未来状态。动态预测器使用 Transformer 模型来捕捉对象之间的交互关系，并预测对象的未来状态。

线性投影：将每个块表示投影到高维空间。
自注意力机制：使用自注意力机制捕捉对象之间的交互关系。
解码：将预测的对象状态解码为图像。

2.4 解码器 (Decoder)

解码器负责将解耦的对象表示解码为图像。解码器使用空间混合模型来生成图像。

空间广播解码器：将每个块表示解码为 2D 特征图。
卷积神经网络：将 2D 特征图解码为图像。

3实验部分

3.1 数据集

在四个不同的数据集上进行了一系列实验，以评估DisFormer的性能。这些数据集包括两个2D数据集和两个3D数据集，涵盖了从简单的玩具环境到更复杂的3D动态：

2D Bouncing Circles (2D-BC)：一个包含三个不同颜色球体在 2D 空间中自由运动和碰撞的合成数据集。
2D Bouncing Shapes (2D-BS)：一个包含两个圆形和两个正方形在 2D 空间中自由运动和碰撞的合成数据集。
OBJ3D：一个包含一个弹性球体进入场景并与其他静止物体碰撞的合成数据集。
CLEVRER：一个包含各种形状、颜色和材质的物体在 3D 空间中运动和交互的合成数据集。

3.2 基线模型

本文将 DisFormer 与以下两种基线模型进行了比较：

GSWM：对象中心生成模型，通过学习对象的表示来预测其动态。模型的目标是提高生成想象力，并且可以通过PyTorch实现。
SlotFormer：基于槽位注意力的对象中心动态模型，将视频分解为对象和背景，并分别进行建模。使用Transformer网络来建模视频中对象的空间-时间动态关系，并生成未来帧。

3.3 评价指标

使用的评估指标包括像素均方误差（PErr）、峰值信噪比（PSNR）、感知损失（LPIPS）和结构相似性指数（SSIM）。

像素均方误差（PErr）：指均方误差（MSE），用于衡量图像处理前后的质量变化。
峰值信噪比（PSNR）：PSNR是“Peak Signal to Noise Ratio”的缩写，即峰值信噪比，是一种评价图像的客观标准。PSNR的单位是dB，数值越大表示失真越小。
感知损失（LPIPS）：LPIPS，也称为“感知损失”，用于度量两张图像之间的差别。这个指标通过深度学习模型来评估两个图像之间的感知差异。
结构相似性指数（SSIM）：SSIM是“Structural Similarity Index”的缩写，即结构相似性指数，用于衡量两幅图像之间的相似度。SSIM考虑了图像的亮度、对比度和结构三个方面，取值范围在-1到1之间，1表示两幅图像完全相同，-1表示两幅图像完全不同。