Meta放大招,物理世界大模型?让AI Agent理解和描述3D空间,"真AR眼镜"要来

熊可爱


Meta加速AI+3D世界融合,发布新的研究成果SceneScript:AI大模型+3D重建,让AI Agent理解和描述3D空间,网友直呼:这是物理世界大模型嘛?“真AR眼镜”加速!

“我们相信 Meta加速AI+3D世界融合,发布新的研究成果SceneScript:AI大模型+3D重建,让AI Agent理解和描述3D空间,网友直呼:这是物理世界大模型嘛?“真AR眼镜”加速!代表了真正的 AR 眼镜之路上的一个重要里程碑,它将连接物理世界和数字世界。随着我们在 Reality Labs Research 更深入地挖掘这一潜力,我们对这种开创性方法将如何帮助塑造人工智能和机器学习研究的未来感到兴奋。”Meta元宇宙部门(RealityLabs)表示。

AI+智能眼镜方面,Meta团队发布最新进展,宣布 ??????????????????????:一种端到端的场景重建方法,使得AI代理能够理解和描述3D空间

为了实现AR和AI的潜力,设备必须理解我们的物理环境,例如我们所处的位置以及周围的环境。一个三次方之前发过的例子Quest 3 或 Apple Vision Pro 如何创建你室内空间的地图以固定和对齐3D内容。

然而,这些场景理解系统通常依赖于多个中间阶段的特征提取和预处理,由于环境设计的方式不计其数,这些系统在边缘情况中通常会失败。

这就是“??????????????????????”的出现,这是一种使用自回归结构化语言模型和端到端学习来表示和推断场景几何的新方法。

与要求多个预处理阶段和‘硬编码规则’不同,SceneScript 获取智能眼镜设备的传感器数据,并直接输出描述房间布局的‘建筑 CAD 类似语言’,而无需手动的‘特征工程’。

这种语言不仅描述了房间布局,SceneScript 还可以预测对象的位置,并将这些对象分解成其组成部分,而无需对底层模型架构进行任何修改!这样一种“场景表示”,它既紧凑 - 将内存需求降低到几个字节;又完整 - 产生了清晰的几何图形,就像可伸缩矢量图形一样。而且易于解释,因此人类和计算机都可以轻松读取和编辑。

这里真正酷的部分是,这意味着我们可以直接将输出提供给一个大模型来推理物理空间。只需将输出与基于聊天的助手(如 LLAMA)共享,我们就可以提出问题,比如“涂这个房间需要多少罐油漆?

为了训练模型,Meta团队使用了一个包含 100k 个室内场景的合成数据集,每个场景都是通过程序生成的,完全独特。Meta去年将该数据集开源,命名为“???????? ?????????????????? ????????????????????????”。

Meta希望这项研究能够开辟新的未被探索的场景理解领域,并开启一个了解我们物理环境更多信息的AI数字助手新时代。

无法查看的用户点击底部「阅读原文」

熊嘻嘻


以下是Meta原文博客:


https://ai.meta.com/blog/scenescript-3d-scene-reconstruction-reality-labs-research/

推出全新方法:SceneScript 三维场景重建

SceneScript 是通过使用 Aria 合成环境数据集进行模拟训练的,该数据集可供学术使用。

想象一下,一副时尚、轻巧的眼镜,结合了上下文化的 AI 和显示屏,可以在你需要时无缝提供实时信息,并在你日常活动时主动为你提供帮助。为了使这样一副AR眼镜成为现实,系统必须能够理解您所处物理环境的布局以及三维世界的形态。这种理解将使 AR 眼镜能够根据你的个人情境量身定制内容,如将数字叠加物与你的物理空间无缝融合,或者为你提供逐步导航指示,帮助你在陌生地点导航。

然而,构建这些 3D 场景表示是一个复杂的任务。当前的 MR(混合现实)头戴式显示器如 Meta Quest 3 根据来自摄像头或 3D 传感器的原始视觉数据创建物理空间的虚拟表示。这些原始数据被转换为描述环境不同特征的一系列形状,如墙壁、天花板和门。通常,这些系统依赖于预定义的规则将原始数据转换为形状。然而,这种启发式方法往往会导致错误,特别是在具有独特或不规则几何形状的空间中。

与使用硬编码规则将原始视觉数据转换为房间的近似建筑要素不同,SceneScript 被训练为直接推断房间的几何形状,使用端到端的机器学习。

这导致了对物理场景的表示是紧凑的,将内存需求减少到仅几个字节;完整的产生清晰的几何形状,类似于可伸缩矢量图形;而且重要的是:可解释的,意味着我们可以轻松阅读和编辑。

SceneScript 是如何训练的?

SceneScript 利用了与 LLMs 使用的“下一个token预测”相同的概念。但是,SceneScript 模型不是预测一般的语言token,而是预测下一个“建筑token”,如“墙”或“门”。

通过给网络提供大量的训练数据,SceneScript 模型学习如何将视觉数据编码成场景的基本表示,然后将其解码成描述房间布局的语言。这使得 SceneScript 能够解释和重建复杂环境的视觉数据,并创建能够有效描述分析的场景结构的文本描述。

然而,团队需要大量的数据来训练网络,并教会它如何布置物理空间,并确保他们在维护隐私。

这提出了一个独特的挑战!!!在模拟环境中训练 SceneScript

虽然 LLMs 依赖于大量的训练数据,这些数据通常来自网上一系列公开可用的文本来源,但尚未存在着一个适合训练端到端模型所需规模的物理空间信息的存储库。因此,Reality Labs Research 团队必须找到另一个解决方案。

与依赖物理环境数据不同,SceneScript 团队创建了一个室内环境的合成数据集,名为 Aria 合成环境。该数据集包含 100,000 个完全独特的室内环境,每个环境都用 SceneScript 语言描述,并与通过每个场景的模拟视频配对。

数据集地址:

https://www.projectaria.com/datasets/ase/

AI创业者

通过每个场景呈现的视频使用与 Reality Labs Research 加速 AI 和 ML 研究的 Project Aria 眼镜相同的传感器特性进行模拟。这种方法允许 SceneScript 模型在隐私保护条件下完全在模拟环境中进行训练。然后,可以使用来自 Project Aria 眼镜的实际世界录像验证模型,确认模型的泛化能力适用于实际环境。

扩展 SceneScript 来描述对象、状态和复杂几何形状

SceneScript 的另一个优势是其可扩展性。:通过向描述 Aria 合成环境数据集中门的场景语言添加一些额外参数,网络可以被训练以准确预测物理环境中门的打开或关闭程度。

此外,通过向建筑语言添加新功能,可以准确预测对象的位置,甚至可以将这些对象分解成其组成部分。

例如,沙发可以在 SceneScript 语言中表示为包括靠垫、腿部和扶手在内的一组几何形状。这种细节水平最终可以被设计师用来创建真正定制的 AR 内容,以适应各种物理环境。

加速 AR,推动 LLMs 前进,推进 AI 和 ML 研究的最新成果

SceneScript 可以为 MR 头戴式显示器和未来的 AR 眼镜解锁关键应用场景,例如生成所需地图,为视觉受损的人提供逐步导航,SceneScript 还为 LLMs 提供了理解物理空间所必需的词汇。这最终可能会解锁下一代数字助手的潜力,为其提供回答复杂空间查询所需的物理世界背景。例如,借助对物理空间的理解能力,我们可以向聊天助手提出问题,如“这张桌子能放在我的卧室吗?”或“要涂这个房间需要多少罐油漆?”与寻找卷尺、记录测量结果,并尽力用一些草稿纸上的数学来估计答案不同,拥有 SceneScript 的聊天助手可以在几分之一秒内得出答案。

SceneScript 在通向真正的 AR 眼镜的道路上代表着重要的里程碑,这将连接物理世界和数字世界。

AI创业者


项目地址:

https://www.projectaria.com/scenescript/

拓展:类似方案


【大模型+MR】一个混合现实大型语言模型,有程序员看看的吗?3D产品化机会很大:


社区会员