Encoder/Decoder Transformer Architecture

杨立昆路线的新胜利：VL-JEPA来了，抛弃预测下一个词，不靠生成 ...

它接收视频或图像输入，将其压缩成一串紧凑的视觉嵌入向量。这里研究团队选用的是冻结参数的V-JEPA 2 ViT-L模型。这个模型本身就在自监督视觉任务上表现优异，能把复杂的视频画面浓缩成高密度的信息流。

一些您可能无法访问的结果已被隐去。