它接收视频或图像输入,将其压缩成一串紧凑的视觉嵌入向量。这里研究团队选用的是冻结参数的V-JEPA 2 ViT-L模型。这个模型本身就在自监督视觉任务上表现优异,能把复杂的视频画面浓缩成高密度的信息流。