震撼发布!4M-21:苹果多模态AI巨擘,一键解锁21种模态


前沿科技速递🚀

 

来自洛桑联邦理工学院(EPFL)与苹果科研巨擘的强强联手,震撼发布全新跨时代成果——4M-21模型!这一革命性单一模型,突破性地覆盖了数十种高度多样化的模态,通过大规模多模态数据集与文本语料库的协同训练,实现了前所未有的跨领域能力飞跃。

想象一下,从图像特征到人体姿态,从向量到实例分割,无论数据形态如何复杂多变,4M-21都能以统一的视角进行解析与生成。这一壮举,不仅将现有模型的模态处理能力提升至三倍以上,更在细粒度控制与多模态生成上迈出了坚实步伐。

立即加入我们的探索之旅,一同见证这一颠覆性研究的魅力所在!论文详情、代码资源、实验成果,尽在掌握。快来解锁未来科技的无限可能,与全球科研先锋并肩前行!

论文地址:https://opencsg.com/daily_papers/cFdzaqtfY7xc

模型地址:https://www.opencsg.com/models/EPFL-VILAB/base-4M-21_XL

来源:传神社区

01 模型亮点:单一模型,三倍效能

革命性AI研究来袭!一款单一模型,竟能完成现有模型三倍以上的任务与模态,且性能不减反增。这不仅是技术的飞跃,更是效率与功能的双重提升。

  • 模态大跃进:从7到21,模态数量翻倍增长,涵盖图像、文本、人体姿态等多种类型。这意味着,无论是跨模态检索还是可控生成,这款模型都能轻松应对,开箱即用,性能卓越。

  •  细节与可控性:生成内容更加精细,控制更加灵活。无论是全局图像嵌入还是人体姿态的微妙变化,都能精准捕捉,按需生成。

  • 多模态预训练:基于先进的多模态掩码预训练方案,模型在数十种高度多样化的模态中锤炼成长,实现了跨模态的统一与融合。

  • 特定分词器:创新使用特定于模态的离散分词器,为每种模态量身定制编码方式,确保信息精准传达,模型性能更上一层楼。

  • 规模扩展:模型参数增至3B,数据集扩容至0.5B样本,强大的计算能力与丰富的数据支撑,让模型学习更加深入,表现更加出色。

  • 协同训练:视觉与语言双管齐下,协同训练让模型在理解世界时更加全面与深刻,输出更加精准与生动。

图片

02 方法介绍

来自EPFL与苹果的强强联合,去年震撼发布的4M预训练方案,如今再次进化!这一被验证为通用且高效的方法,正引领我们向多模态AI的新纪元迈进。

  • 规模升级,性能飙升:保持原有架构与多模态掩码训练目标的精髓,本研究通过前所未有的方式提升模型与数据规模。更多模态类型与数量的融入,加之跨数据集的联合训练,让模型性能与适应性实现质的飞跃。

  • 模态分类,全面覆盖:从RGB视觉盛宴到几何结构的精妙,从语义的深邃到边缘的细腻,再到特征图的丰富、元数据的精准与文本的广阔,本研究将模态细分为六大类别,全方位捕捉世界之美。

    模态分为以下几大类别:RGB、几何、语义、边缘、特征图、元数据和文本。

    图片

  • Tokenization革新,统一表示空间:如何将不同模态与任务无缝对接?本研究创新性地采用多样化tokenization方法,将一切转化为序列或离散token,构建统一的表示空间。ViT、MLP及文本tokenizer三大利器并出,让每种模态都能找到最适合自己的表达方式。

图片

03 多模态能力测评

4M-21模型凭借其强大的迭代解码token能力,能够以前所未有的灵活性预测并生成任意训练模态的内容。如图所示,该模型能够从给定的单一输入模态出发,以高度一致和连贯的方式,生成所有已训练的模态输出,展现了其在多模态生成领域的非凡潜力。

图片

更令人兴奋的是,4M-21支持有条件和无条件的生成模式,允许用户从其他模态的任何子集出发,生成所需的任何训练模态。这一特性极大地丰富了多模态编辑的可能性,如图所示,用户可以在保留原有信息的基础上,对多个模态进行精细调整和优化,实现更加个性化和定制化的输出。此外,4M-21在文本理解能力上也实现了显著提升,无论是基于T5-XXL嵌入还是常规字幕,都能生成几何和语义上均合理的内容,进一步证明了其强大的多模态理解能力。

图片

在传统模型中,多模态检索往往受限于固定的查询方式。而4M-21则彻底打破了这一束缚,实现了前所未有的检索功能。如图所示,用户不仅可以使用RGB图像等传统模态作为查询条件,还可以利用其他任何模态来检索所需的信息。这种跨模态的检索能力极大地拓宽了信息获取的渠道和方式。

此外,4M-21还创新性地引入了多模态组合预测全局嵌入的方法,通过整合多种模态的信息来优化检索结果的控制。这一方法不仅提高了检索的准确性和效率,还为用户提供了更加灵活和个性化的检索体验。

图片

为了验证4M-21的性能优势,论文在多个基准数据集上进行了评估。如表所示,在DIODE表面法线和深度估计、COCO语义和实例分割、3DPW 3D人体姿态估计等任务中,4M-21均取得了显著优于现有模型的表现。这些结果表明,4M-21不仅具备强大的多模态处理能力,还在实际应用中展现出了极高的实用价值。

图片

04 上手实践

想要体验最前沿的多模态AI技术吗?快来跟随我们一起上手实践4M框架吧!这个由EPFL-VILAB和苹果联合推出的4M框架,以其卓越的性能和开源的特性,正引领着多模态研究的新潮流。

在这个演示中,我们展示了从给定RGB输入中提取的多种模式示例,包括Canny边缘、SVM边界、SM距离等。你可以清晰地看到,4M框架如何将这些复杂的图像特征转化为易于理解和处理的数据格式。

想要进一步体验4M-21模型的话快来传神社区下载吧!

图片

图片

欢迎加入传神社区

•贡献代码,与我们一同共建更好的OpenCSG

•Github主页

欢迎🌟:https:// github.com/opencsg

•Huggingface主页

欢迎下载:https://huggingface.co/opencsg

•加入我们的用户交流群,分享经验

图片

扫描上方二维码添加传神小助手


“      关于OpenCSG

开放传神(OpenCSG)成立于2023年,是一家致力于大模型生态社区建设,汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。

关注OpenCSG

图片

加入传神社区

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/774454.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

数据洞察:从零到一的数据仓库与Navicat连接全攻略【实训Day04】[完结篇]

一、数据分析 1 实现数据仓库(在hadoop101上) 1) 创建jobdata数据库 # cd $HIVE_HOME # bin/hive hive>create database jobdata; hive>use jobdata; 2) 创建原始职位数据事实表ods_jobdata_orgin(在hadoop101上) create table ods_jobdata_origin( city string CO…

【测试开发】【postman】按顺序循环执行接口

postman按顺序循环执行接口 新建接口接口排序执行请求集合 新建接口 Request 001 Request 002 Request 003 接口排序 在Request 001的Tests中添加代码 postman.setNextRequest("Request 002");在Request 002的Tests中添加代码 postman.setNextRequest("Requ…

ASP.NET Core 使用Log4net

1. Nuget安装log4net&#xff0c;图里的两个 2.项目根目录下添加log4net.config.添加下面的代码: <?xml version"1.0" encoding"utf-8"?> <configuration><!-- This section contains the log4net configuration settings --><log…

“免费”的可视化大屏案例分享-智慧园区综合管理平台

一.智慧园区是什么&#xff1f; 智慧园区是一种融合了新一代信息与通信技术的先进园区发展理念。它通过迅捷信息采集、高速信息传输、高度集中计算、智能事务处理和无所不在的服务提供能力&#xff0c;实现了园区内及时、互动、整合的信息感知、传递和处理。这样的园区旨在提高…

k8s离线安装安装skywalking9.4

目录 概述资源下载Skywalking功能介绍成果速览实践rbacoapoap-svcuiui-svc 结束 概述 k8s 离线安装安装 skywalking9.4 版本&#xff0c;环境&#xff1a;k8s版本为&#xff1a;1.27.x 、spring boot 2.7.x spring cloud &#xff1a;2021.0.5 、spring.cloud.alibab&#xff1…

IDEA如何引入外部jar包

导了3次&#xff0c;记不住&#xff0c;写篇博客记一下&#xff1b; 1、File->Project Structure->项目名称->JARs or Dircetories... 2、选择所要导入的jar包【可多选】&#xff1b;此处图片略&#xff1b; 3、选中后点击确定&#xff0c;jar会显示在idea的目录中&…

零基础必看html5

文本格式化标签 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Document</title> </head&g…

6月30日功能测试Day10

3.4.4拼团购测试点 功能位置&#xff1a;营销-----拼团购 后台优惠促销列表管理可以添加拼团&#xff0c;查看拼团活动&#xff0c;启动活动&#xff0c;编辑活动&#xff0c;删除活动。 可以查看拼团活动中已下单的订单以状态 需求分析 功能和添加拼团 商品拼团活动页 3…

【python】Python中常用的数据结构——列表、元组和字典

python中的数据结构 列表、元组、字典的区别元组&#xff0c;字典&#xff0c;列表三者之间如何实现嵌套生成一个单一元素的元组、列表列表的地址列表、元组和字典的增删改查 列表、元组、字典的区别 列表、元组和字典是Python中常用的数据结构&#xff0c;它们各自有不同的特…

香橙派AIpro测评:yolo8+usb鱼眼摄像头的Camera图像获取及识别

一、前言 近期收到了一块受到业界人士关注的开发板"香橙派AIpro",因为这块板子具有极高的性价比&#xff0c;同时还可以兼容ubuntu、安卓等多种操作系统&#xff0c;今天博主便要在一块832g的香橙派AI香橙派AIpro进行YoloV8s算法的部署并使用一个外接的鱼眼USB摄像头…

14-28 剑和诗人2 - 高性能编程Bend和Mojo

介绍&#xff1a; 在不断发展的计算世界中&#xff0c;软件和硬件之间的界限变得越来越模糊。随着我们不断突破技术可能性的界限&#xff0c;对能够利用现代硬件功能的高效、可扩展的编程语言的需求从未如此迫切。 Bend和 Mojo是编程语言领域的两种新秀&#xff0c;它们有望弥…

RT-Thread Studio与CubeMX联合编程之rtthread启动

看到了好多文章&#xff0c;在rtthread studio中启用mx&#xff0c;后总是复制mx相关msp函数到rt的board.c文件下&#xff0c;实际使用过程中发现并不需要&#xff0c;这里我们看下rt启动流程&#xff0c;看下到底需要不。 1.打开startup_stm32h743xx.S文件&#xff0c;看下芯片…

法国工程师IMT联盟 密码学及其应用 2023年期末考试补考题

1 JAVA 安全 1.1 问题1 1.1.1 问题 用 2 或 3 句话解释 Java 执行模型&#xff08;Java 虚拟机machine virtuelle Java)&#xff09;中引入introduit沙箱bac sable机制 mcanisme d’excution par isolation的目的。 1.1.2 问题解释 在 Java 执行模型&#xff08;Java 虚拟机…

【车载开发系列】J-Link/JFlash 简介与驱动安装方法

【车载开发系列】J-Link/JFlash 简介与驱动安装方法 【车载开发系列】J-Link/JFlash 简介与驱动安装方法 【车载开发系列】J-Link/JFlash 简介与驱动安装方法一. 软件介绍二. 下载安装包二. 开始安装三. 确认安装四. J-Flash的使用 一. 软件介绍 J-Link是SEGGER公司为支持仿真…

昇思25天学习打卡营第07天 | 函数式自动微分

昇思25天学习打卡营第07天 | 函数式自动微分 文章目录 昇思25天学习打卡营第07天 | 函数式自动微分函数与计算图微分函数与梯度Stop GradientAuxiliary data 神经网络梯度计算总结打卡 神经网络的训练主要使用反向传播算法&#xff0c;首先计算模型预测值&#xff08;logits&am…

【IC】mismatch model

由于工艺和制造偏差的存在,相同设计参数的器件会存在参数间额差异,称为mismatch,通常用Monte Carlo去仿真多个mismatch叠加对设计的总影响。 器件偏差mismatch是工艺和制造偏差导致的,在Lot to Lot、Wafer to Wafer、Die to Die 以及in die的Device to Deview之间可见。 …

OZON怎么查看竞品数据,OZON怎么找竞品数据

在跨境电商的激烈竞争中&#xff0c;了解和分析竞品数据是每一位卖家优化销售策略、提升市场竞争力的关键步骤。OZON作为俄罗斯领先的电商平台&#xff0c;为卖家提供了丰富的数据分析工具&#xff0c;而萌啦ozon数据作为第三方数据分析平台&#xff0c;更是为卖家提供了更为全…

四、centos7安装nginx

来源网站&#xff1a;山海同行 来源地址&#xff1a;https://shanhaigo.cn 网站简介&#xff1a;一站式编程学习、资源、导航网站 本篇资源&#xff1a;以整理分类并关联本篇地址 本篇地址&#xff1a;https://shanhaigo.cn/courseDetail/1805875642621952000 安装系统centos7 …

CASS7.0按方向和距离绘制图形

1、绘制工具 2、按方向和距离绘制 &#xff08;1&#xff09;切换方向 &#xff08;2&#xff09;距离输入