刚刚,马斯克的AI多模态大模发布,对标GPT-4V,又榜单第一了?谷歌安卓XR操作系统有望5月亮相

熊可爱


刚刚,马斯克的AI多模态大模发布,对标GPT-4V,具有“看图说话”、处理文档等功能,又榜单第一了?Android XR操作系统有望今年5月份亮相。

马斯克的xAI公司预告了其首款多模态模型Grok-1.5V。这款模型不仅能够理解文本,还能够处理在文档、图表、截图和照片中看到的内容。Grok-1.5 Vision(简称Grok-1.5V)即将向早期测试者和现有Grok用户开放。

公司在博客文章中宣称:“Grok-1.5V在多个领域与现有的前沿多模态模型具有竞争力,这些领域包括跨学科推理、理解文档、科学图表、图表、截图和照片。”

公司突出了七个例子来展示Grok-1.5V的潜力,这些例子包括将白板上的流程图草图转换成Python代码,仅凭孩子的一幅画生成一个睡前故事,将表格转换成CSV文件格式,以及识别你的甲板上是否有腐烂的木头需要更换。

在与GPT-4V、Claude 3Sonnet、Claude 3 Opus和Gemini Pro 1.5的测试中,xAI声称其多模态模型脱颖而出。Grok-1.5V在RealWorldQA基准测试中超越了竞争对手,这是该公司为评估现实世界空间理解而创建的一项新指标。

起初,RealWorldQA使用超过700张图像以及每个项目的问答进行训练。这些图像从车辆拍摄的匿名图像到其他现实世界的样本都有。xAI将在创作共用许可下将RealWorldQA公开发布给公众。

以下是xAI官网博客:

https://x.ai/blog/grok-1.5v

熊嘻嘻

在数字世界与物理世界之间架起桥梁,我们的首款多模态模型Grok-1.5V即将亮相。

今天,我们自豪地介绍我们的首款多模态模型——Grok-1.5V。除了强大的文本处理能力,Grok现在还能够处理各种视觉信息,包括文档、图表、数据表、截图和照片。Grok-1.5V很快将向我们的早期测试者和现有Grok用户开放。

能力介绍

Grok-1.5V在多个领域与现有的前沿多模态模型具有竞争力,这些领域包括跨学科推理、理解文档、科学图表、数据表、截图和照片。我们特别兴奋的是Grok在理解我们的物理世界方面的能力。在我们的新基准测试RealWorldQA中,Grok在衡量现实世界空间理解方面超越了它的同行。在下面的所有数据集中,我们在没有思维链提示的情况下,以零样本设置评估Grok。

现实世界的理解

为了开发有用的现实世界AI助手,提高模型对物理世界的理解至关重要。为了实现这一目标,我们正在引入一个新的基准测试——RealWorldQA。这个基准测试旨在评估多模态模型的基本现实世界空间理解能力。虽然当前基准测试中的许多例子对人类来说相对容易,但它们经常对前沿模型构成挑战。

RealWorldQA的初始版本包含超过700张图片,每张图片都有一个问题和容易验证的答案。数据集由车辆中拍摄的匿名图像以及其他现实世界的图像组成。我们很高兴将RealWorldQA发布给社区,并计划随着我们的多模态模型的改进而扩展它。RealWorldQA在CC BY-ND 4.0下发布。

AI创业者


数据集下载地址:

https://data.x.ai/realworldqa.zip

提高我们的多模态理解和生成能力是构建能够理解宇宙的有益通用人工智能(AGI)的重要步骤。在未来几个月中,我们预计将在图像、音频和视频等各种模态上做出重大改进。

Grok-1.5V的推出标志着我们在连接数字世界和物理世界方面迈出了一大步。这款模型不仅能够理解文本,还能够处理和理解视觉信息,这将极大地扩展AI的应用范围。我们相信,随着我们对多模态理解和生成能力的不断改进,我们将能够构建出更加智能、更加有用的AI助手,它们将更好地理解和服务于我们的世界。

参考:https://x.ai/blog/grok-1.5v

Android XR操作系统或将在5月份亮相

最近谷歌AR/VR在X上发布,Google I/O 2024将会有“AR公告”。

如果谷歌和三星确实在2024年末或2025年初推出一款混合现实头显,那么Google I/O将是宣布Android XR空间操作系统并吸引开发者参与的完美平台。

早在2023年初,三星、谷歌和高通宣布合作开发一款混合现实头显。一年后,高通推出了将用于三星头显的高端Snapdragon XR2+ Gen 2芯片组,其速度略快于Quest 3中的芯片组。这款设备旨在成为Vision Pro的Android对应产品,并将搭载自己的操作系统,据报道称为Android XR。

谷歌曾试图说服Meta转用Android XR,但Meta出于可以理解的原因拒绝了这一提议。Meta正在与LG合作开发自己的高端头显和Quest Pro的下一代,可能会在2025年发布。(谷歌主动献殷勤!欲与Meta合作开发Android XR操作系统,Meta拒绝,CTO回应

随着科技巨头们纷纷布局混合现实和扩展现实领域,谷歌的Android XR操作系统的推出无疑将为这一领域带来新的活力。如果谷歌能够在I/O大会上成功吸引开发者的关注,并推动Android XR的发展,那么它将有望成为混合现实设备的重要平台。

—— End ——

社区会员


近期媒体社区(专业版)内容:


【工作流】基于AI,产品/设计从业者如何为苹果Vision Pro创作原型 - 核心步骤+工具


元宇宙文旅需求:【景区做AR地标打卡特效】,技术商看过来


套壳GPT产品月入300w美金;VR版GPT-文字生成VR思维导图;景区AR打卡需求找技术商......


类妙鸭相机创业:3D版、视频版、垂类写真版......产品案例+方案


创业者必备:AI大模型时代,AIGC商业计划书PPT合集

无法进入社区查看的用户点击底部{阅读原文}