vl - 搜索 News

7 天

上海AI实验室推出SynerGen-VL模型：图像理解与生成的双重革命

在人工智能技术不断发展的今天，上海AI实验室的最新突破引起了广泛关注。近日，该实验室与香港中文大学、清华大学及商汤科技等多家顶尖机构联合研发的SynerGen-VL模型正式发布，标志着图像理解和生成领域的一次重大飞跃。这项研究成果以论文形式发表于arXiv平台，显示了其在多模态AI系统开发中的巨大潜力。 SynerGen-VL模型的设计理念颠覆了传统的视觉理解和图像生成的分离架构。以往，AI系统通 ...

腾讯网

微软联手马里兰大学：视觉语言模型的“深度广度融合”革新 ...

这项由微软研究院和马里兰大学合作开展的研究发表于2024年12月，论文编号为arXiv:2412.04424v1。研究团队突破了传统视觉语言模型的局限，开发出了名为Florence-VL的新型多模态大语言模型。有兴趣深入了解的读者可以通过该论文编号查询完整研究内容。当我们在和朋友聊天时描述一张照片，我们会说"这里有两只小狗在草地上玩耍 ...

腾讯网

上海AI实验室联合多家顶尖机构发布SynerGen-VL：一个模型竟能同时 ...

视觉专家机制的设计更是巧妙。可以把整个模型想象成一个多功能的工作坊，原本只有文字处理的工匠。为了增加视觉处理能力，研究团队没有推倒重建，而是在原有基础上增设了专门的视觉工作台。当处理文字时，文字工匠继续使用原有的工具和技能；当处理图像时，新设的视觉专 ...

36氪

阿里Qwen-VL开源！能读图识物，一句话让AI来找茬，可二次开发和商用

就在前不久，阿里宣布开源Qwen-VL，一款支持中英文等多种语言的视觉语言大模型，这也是首个支持中文开放域定位的通用模型 ...

7 天

上海AI实验室突破：SynerGen-VL模型革新，高清图像理解生成一步到位

上海AI实验室与香港中文大学、清华大学、商汤科技等机构联合研发的SynerGen-VL模型，近日在人工智能领域引发广泛关注。这项突破性成果以论文形式发表于arXiv平台，通过统一框架设计实现了图像理解与生成能力的双重突破，为多模态AI系统开发提供了全新思路。与传统需要分别构建视觉理解与图像生成系统的方案不同，该模型将两项核心能力整合于单一架构，如同培养兼具艺术鉴赏与创作能力的全才。

新浪网

智源开源多模态向量模型BGE-VL：多模态检索新突破

BGE 系列模型自发布以来广受社区好评。近日，智源研究院联合多所高校开发了多模态向量模型 BGE-VL，进一步扩充了原有生态体系。BGE-VL 在图文检索、组合图像检索等主要多模态检索任务中均取得了最佳效果。BGE-VL 借助大规模合成数据 MegaPairs 训练而成。

新浪网

LeCun的JEPA已进化为视觉-语言模型，1.6B参数比肩72B Qwen-VL

LeCun 的联合嵌入预测架构（JEPA）迎来了新进展。近日，来自 Meta、香港科技大学、索邦大学、纽约大学的一个联合团队基于 JEPA 打造了一个视觉-语言模型：VL-JEPA。据作者 Pascale Fung 介绍，VL-JEPA 是第一个基于联合嵌入预测架构，能够实时执行通用领域视觉-语言 ...

凤凰网

通义开源Qwen3-VL-30B-A3B模型：智能体任务等领域媲美GPT-5-Mini

IT之家 10 月 4 日消息，阿里云通义千问今日宣布开源 Qwen3-VL-30B-A3B-Instruct 与 Thinking 模型，并同步推出 FP8 版本以及超大规模模型 Qwen3-VL-235B-A22B 的 FP8 版本。官方表示，Qwen3-VL-30B-A3B-Instruct 与 Thinking 体积更小，性能依旧强劲，更实现集 Qwen3-VL 全部能力于一身。

来自MSN

通义千问Qwen3-VL家族再添新成员！2B与32B模型上线，开源生态构建完整 ...

在全球大模型技术竞争愈发激烈的背景下，阿里云通义千问团队以更开放的模型矩阵布局展现技术实力。10月22日，该团队宣布推出Qwen3-VL家族两款全新密集型模型——2B与32B版本，至此其开源模型总数已达24个，形成覆盖轻量级到超大规模的完整技术生态链。

来自MSN

字节跳动Seed1.5-VL多模态大模型刷新38项评测基准，已在火山引擎开放API

字节跳动旗下的Seed团队近期宣布了一项技术新突破，其最新研发的视觉-语言多模态大模型Seed1.5-VL正式亮相。这款模型在多模态理解与推理方面展现出了显著增强，同时在成本控制上也实现了大幅下降。据悉，Seed1.5-VL在60项公开的评测基准测试中，有38项取得了 ...

36氪

阿里开源视觉大模型Qwen2-VL：可理解20分钟长视频，性能比肩GPT-4o

智东西8月30日消息，阿里通义千问于昨日开源新一代视觉语言模型Qwen2-VL。其中，Qwen2-VL-72B在大部分指标上都达到了最优，刷新了开源多模态模型的最好表现，甚至超过了GPT-4o和Claude 3.5 Sonnet等闭源模型。据官方博客文章介绍，Qwen2-VL基于Qwen2打造，相比第一代Qwen ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果