在人工智能技术不断发展的今天,上海AI实验室的最新突破引起了广泛关注。近日,该实验室与香港中文大学、清华大学及商汤科技等多家顶尖机构联合研发的SynerGen-VL模型正式发布,标志着图像理解和生成领域的一次重大飞跃。这项研究成果以论文形式发表于arXiv平台,显示了其在多模态AI系统开发中的巨大潜力。 SynerGen-VL模型的设计理念颠覆了传统的视觉理解和图像生成的分离架构。以往,AI系统通 ...
这项由微软研究院和马里兰大学合作开展的研究发表于2024年12月,论文编号为arXiv:2412.04424v1。研究团队突破了传统视觉语言模型的局限,开发出了名为Florence-VL的新型多模态大语言模型。有兴趣深入了解的读者可以通过该论文编号查询完整研究内容。当我们在和朋友聊天时描述一张照片,我们会说"这里有两只小狗在草地上玩耍 ...
视觉专家机制的设计更是巧妙。可以把整个模型想象成一个多功能的工作坊,原本只有文字处理的工匠。为了增加视觉处理能力,研究团队没有推倒重建,而是在原有基础上增设了专门的视觉工作台。当处理文字时,文字工匠继续使用原有的工具和技能;当处理图像时,新设的视觉专 ...
就在前不久,阿里宣布开源Qwen-VL,一款支持中英文等多种语言的视觉语言大模型,这也是首个支持中文开放域定位的通用模型 ...
上海AI实验室与香港中文大学、清华大学、商汤科技等机构联合研发的SynerGen-VL模型,近日在人工智能领域引发广泛关注。这项突破性成果以论文形式发表于arXiv平台,通过统一框架设计实现了图像理解与生成能力的双重突破,为多模态AI系统开发提供了全新思路。与传统需要分别构建视觉理解与图像生成系统的方案不同,该模型将两项核心能力整合于单一架构,如同培养兼具艺术鉴赏与创作能力的全才。
BGE 系列模型自发布以来广受社区好评。近日,智源研究院联合多所高校开发了多模态向量模型 BGE-VL,进一步扩充了原有生态体系。BGE-VL 在图文检索、组合图像检索等主要多模态检索任务中均取得了最佳效果。BGE-VL 借助大规模合成数据 MegaPairs 训练而成。
LeCun 的联合嵌入预测架构(JEPA)迎来了新进展。 近日,来自 Meta、香港科技大学、索邦大学、纽约大学的一个联合团队基于 JEPA 打造了一个视觉-语言模型:VL-JEPA。 据作者 Pascale Fung 介绍,VL-JEPA 是第一个基于联合嵌入预测架构,能够实时执行通用领域视觉-语言 ...
IT之家 10 月 4 日消息,阿里云通义千问今日宣布开源 Qwen3-VL-30B-A3B-Instruct 与 Thinking 模型,并同步推出 FP8 版本以及超大规模模型 Qwen3-VL-235B-A22B 的 FP8 版本。 官方表示,Qwen3-VL-30B-A3B-Instruct 与 Thinking 体积更小,性能依旧强劲,更实现集 Qwen3-VL 全部能力于一身。
在全球大模型技术竞争愈发激烈的背景下,阿里云通义千问团队以更开放的模型矩阵布局展现技术实力。10月22日,该团队宣布推出Qwen3-VL家族两款全新密集型模型——2B与32B版本,至此其开源模型总数已达24个,形成覆盖轻量级到超大规模的完整技术生态链。
字节跳动旗下的Seed团队近期宣布了一项技术新突破,其最新研发的视觉-语言多模态大模型Seed1.5-VL正式亮相。这款模型在多模态理解与推理方面展现出了显著增强,同时在成本控制上也实现了大幅下降。据悉,Seed1.5-VL在60项公开的评测基准测试中,有38项取得了 ...
智东西8月30日消息,阿里通义千问于昨日开源新一代视觉语言模型Qwen2-VL。其中,Qwen2-VL-72B在大部分指标上都达到了最优,刷新了开源多模态模型的最好表现,甚至超过了GPT-4o和Claude 3.5 Sonnet等闭源模型。 据官方博客文章介绍,Qwen2-VL基于Qwen2打造,相比第一代Qwen ...