Meta开源AI模子凶猛了!引入多模态转换 听音频就能画画
- 百科
- 2023-05-12 06:56:06
- 57

财联社
Meta周二(5月9日)颁布发表了一个新的开源人工智能(AI)模子ImageBind,该模子能够将六品种型的数据流联络在一路。
ImageBind以视觉(图片和视频)为核心,连系文本、声音、3D深度、温度、运动读数(IMU),最末能够做到在六个模态之间的肆意转换。
ImageBind为机器供给了一个整体的理解,将照片中的物体与它们的声音、3D外形、冷暖水平、以及它们的挪动体例联络起来。
Meta称,ImageBind使机器可以更同步、更全面、更间接地从差别信息形式中进修,进一步向人类挨近。
AI的将来
该研究的核心概念是将多品种型的数据毗连到一个嵌入空间(Embedding Space)中,恰是那个概念支持着比来生成式AI的兴旺开展。
例如,Meta的AI图像生成器Make-A-Scene能够在ImageBind模子的撑持下,从音频中创建图像,例如按照雨林或熙熙攘攘的市场的声音创建图像。
ImageBind还能够供给一种丰硕的体例来摸索记忆,也就是利用文本、音频和图像的组合来搜刮相关信息。
此外,ImageBind为研究人员开发新的整系统统供给了思绪,例如连系3D和IMU传感器来设想或体验沉浸式虚拟世界。那不就是Meta不断以来逃求的“元宇宙”吗?
上图是Meta在一篇博客文章中给出的案例:当输入一段企鹅的啼声后,ImageBind能生成企鹅的图片;当输入鸽子的照片和一段汽车轰鸣声后,ImageBind能生成一张“人开车轰动鸽群”的照片;ImageBind还能够按照一段火车的音频,生成火车的照片、相关的火车3D模子、以及一段描述火车车站的文本。
该模子目前还只是一个研究项目,没有间接的消费者或现实应用,不外它那种穿插引用数据的模子指了然生成式AI系统的将来,因为它能够缔造设身处地的多感官体验。
Meta在博客文章中指出,其他感官输入流也可能会被添加到将来的模子中,包罗“触觉、听觉、嗅觉和大脑功用磁共振成像信号”。
想象一下,在将来的一台设备上,你能够让它模仿一次漫长的海上飞行,它不只会让你置身于一艘以波浪为布景声音的船上,还会让你感触感染到脚下船面的摇摆和海上空气的凉快。
开源与限造
当然,那一切都是揣测的,并且像如许的研究的间接应用可能会遭到更多的限造。
然而,关于行业察看者来说,那项研究很有趣,因为Meta已将其ImageBind的代码开源,那一做法在AI范畴遭到愈发严酷的审查。
OpenAI等反对开源的行业人士称,那种做法对缔造者有害,因为合作敌手能够复造他们的做品,并且那种做法可能存在潜在危险,允许歹意行为者操纵更先进的人工智能模子。
不外开源的撑持者还击道,开源素质上是允许第三方开发人员做为无偿员工来对模子停止改良,从而进一步产生贸易效益。迄今为行,Meta不断坚决地站在开源阵营。

上一篇:关于科比性侵的信息
- 57人参与,12条评论
-
凌姝 于 2023-05-12 07:18:21 回复
- 照片、相关的火车3D模子、以及一段描述火车车站的文本。 该模子目前还只是一个研究项目,没有间接的消费者或现实应用,不外它那种穿插引用数据的模子指了然生成式AI系统的将
-
明世宗 于 2023-05-12 18:42:06 回复
- 漫长的海上飞行,它不只会让你置身于一艘以波浪为布景声音的船上,还会让你感触感染到脚下船面的摇摆和海上空气的凉快。 开源与限造 当然,那一切都是揣测的,并且像如许的研究的间接应用可能会遭到更
-
慕世海 于 2023-05-12 08:42:06 回复
- 器来设想或体验沉浸式虚拟世界。那不就是Meta不断以来逃求的“元宇宙”吗? 上图是Meta在一篇博客文章中给出的案例:当输入一段企鹅的啼声后,ImageBind能生成企鹅的图片;当输入鸽子的照片和一段汽
-
商泽昊 于 2023-05-12 10:04:59 回复
- 反对开源的行业人士称,那种做法对缔造者有害,因为合作敌手能够复造他们的做品,并且那种做法可能存在潜在危险,允许歹意行为者操纵更先进的人工智能模子。 不外开源的撑持者还击道,开源素质上是允许第三方开发人员做为无偿员工来对模子停止改良,从而进一步产生贸易效益。迄
发表评论