自 2020年启动“悟道”大模型研究以来,智源持续聚焦大模型的原始创新与长期技术路径探索。2025年6月,智源发布新一代大模型系列“悟界”,旨在构建人工智能从数字世界迈向物理世界的关键能力,及物理世界的人工智能基座模型。这其中包括:Emu ...
智源的Emu3模型则开辟了一条新路。该模型基于“预测下一个词元”的全新多模态学习框架,将图像、文本和视频统一离散化到同一个表示空间中。研究团队从零开始,在多模态序列混合数据上联合训练一个单一的Transformer架构,证明了仅凭“预测下一个词元”,就能够同时支持高水平的生成能力与理解能力。
Nature编辑点评这项研究:Emu3仅基于预测下一个词元(Next-token prediction),实现了大规模文本、图像和视频的统一学习,其在生成与感知任务上的性能可与使用专门路线相当,这一成果对构建可扩展、统一的多模态智能系统具有重要意义。
Nature编辑点评这项研究:智源提出的Emu3仅基于预测下一个词元,实现了大规模文本、图像和视频的统一学习,其在生成与感知任务上的性能可与使用专门路线相当,这一成果对构建可扩展、统一的多模态智能系统具有重要意义。
针对多模态学习(Multimodal Learning)中存在的模态不平衡问题(Modality Imbalance),研究人员从集成学习(Ensemble Learning)视角出发,提出负相关学习(Negative Correlation Learning)框架,通过构建单模态基分类器与信息多样性约束,在CREMA-D等5个数据集上实现显著性能提升,为解决 ...