xAI 推出 Grok-1.5 Vision 多模态 AI 模型和物理世界基准

阅读量29779

发布时间 : 2024-04-15 11:30:23

xAI 发布了 Grok-1.5 Vision 多模态 AI 模型的预览版,增强了对物理世界的理解。

埃隆·马斯克 (Elon Musk) 的人工智能初创公司 xAI 发布了 Grok-1.5 Vision 的预览版,这是其第一个多模态人工智能模型,该公司表示,该模型比竞争对手更能理解物理世界。

除了标准文本功能外,Grok-1.5V 还可以处理各种视觉信息,包括文档、图表、图形、屏幕截图和照片。该模型很快将提供给早期测试者和当前 Grok 用户。

xAI 声称,Grok-1.5V 在多个领域(从多学科推理到理解文档、科学图表、图形、屏幕截图和照片)与当今最好的多模态模型具有竞争力。

该公司发布了一个表格,将 Grok 在各种基准测试中的表现与 OpenAI 的 GPT-4、Anthropic 的 Claude 和 Gemini Pro 等竞争模型进行比较。 Grok 在大多数领域取得了同等甚至更好的成绩。

xAI 强调了 Grok 通过新推出的 RealWorldQA 基准来衡量的理解物理世界的能力,该基准测试对现实世界的空间理解。 Grok 使用零样本提示(提示中没有给出示例解决方案),表现优于竞争对手。

Grok 1.5V 的视觉能力与竞争对手相比。 |图片来源:xAI

一个示例展示了 Grok 如何从描述猜谜游戏逻辑的流程图生成工作 Python 代码。这证明了模型理解图表并将其转换为可执行代码的能力。另一个示例显示 Grok-1.5V 解释模因。

图片来源:xAI
图片来源:xAI

RealWorldQA:物理世界的视觉基准

xAI 认为,了解物理世界对于为现实世界开发有用的人工智能助手至关重要。为此,该公司开发了 RealWorldQA 基准,用于评估多模态模型的空间能力。许多例子对于人类来说很简单,但对于人工智能模型来说往往具有挑战性。

最初的 RealWorldQA 数据集由 700 多张图像组成,每张图像都包含一个问题和一个易于验证的答案。这些图像取自车辆和其他来源,并且是匿名的。 xAI 正在将数据集提供给社区,以便在CC BY-ND 4.0 许可证下下载

本文转载自:

如若转载,请注明出处: https://the-decoder.com/xai-introduces-grok-1-5-vision-multimodal-ai-model-and-a-physical-world-benchmark/

安全客 - 有思想的安全新媒体

分享到:微信
+14赞
收藏
安全客
分享到:微信

发表评论

内容需知
  • 投稿须知
  • 转载须知
  • 官网QQ群8:819797106
  • 官网QQ群3:830462644(已满)
  • 官网QQ群2:814450983(已满)
  • 官网QQ群1:702511263(已满)
合作单位
  • 安全客
  • 安全客
Copyright © 北京奇虎科技有限公司 360网络攻防实验室 安全客 All Rights Reserved 京ICP备08010314号-66