Multimodal Learning - 搜索 News

智源多模态大模型登Nature，生成式人工智能路线统一到自回归

自 2020年启动“悟道”大模型研究以来，智源持续聚焦大模型的原始创新与长期技术路径探索。2025年6月，智源发布新一代大模型系列“悟界”，旨在构建人工智能从数字世界迈向物理世界的关键能力，及物理世界的人工智能基座模型。这其中包括：Emu ...

4 天

智源多模态大模型Emu3登顶Nature，开启生成式AI新篇章

智源的Emu3模型则开辟了一条新路。该模型基于“预测下一个词元”的全新多模态学习框架，将图像、文本和视频统一离散化到同一个表示空间中。研究团队从零开始，在多模态序列混合数据上联合训练一个单一的Transformer架构，证明了仅凭“预测下一个词元”，就能够同时支持高水平的生成能力与理解能力。

4 天

智源Emu3成果登上Nature：基于“预测下一个Token”

Nature编辑点评这项研究：Emu3仅基于预测下一个词元（Next-token prediction），实现了大规模文本、图像和视频的统一学习，其在生成与感知任务上的性能可与使用专门路线相当，这一成果对构建可扩展、统一的多模态智能系统具有重要意义。

3 天

中国科研机构主导的大模型成果登Nature

Nature编辑点评这项研究：智源提出的Emu3仅基于预测下一个词元，实现了大规模文本、图像和视频的统一学习，其在生成与感知任务上的性能可与使用专门路线相当，这一成果对构建可扩展、统一的多模态智能系统具有重要意义。

生物通

基于负相关集成学习的多模态平衡优化方法及其性能提升研究

针对多模态学习(Multimodal Learning)中存在的模态不平衡问题(Modality Imbalance)，研究人员从集成学习(Ensemble Learning)视角出发，提出负相关学习(Negative Correlation Learning)框架，通过构建单模态基分类器与信息多样性约束，在CREMA-D等5个数据集上实现显著性能提升，为解决 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果