xAI 推出 Grok-1.5 Vision 多模态 AI 模型和物理世界基准-安全KER

xAI 推出 Grok-1.5 Vision 多模态 AI 模型和物理世界基准

阅读量72482

发布时间 : 2024-04-15 11:30:23

xAI 发布了 Grok-1.5 Vision 多模态 AI 模型的预览版，增强了对物理世界的理解。

埃隆·马斯克 (Elon Musk) 的人工智能初创公司 xAI 发布了 Grok-1.5 Vision 的预览版，这是其第一个多模态人工智能模型，该公司表示，该模型比竞争对手更能理解物理世界。

除了标准文本功能外，Grok-1.5V 还可以处理各种视觉信息，包括文档、图表、图形、屏幕截图和照片。该模型很快将提供给早期测试者和当前 Grok 用户。

xAI 声称，Grok-1.5V 在多个领域（从多学科推理到理解文档、科学图表、图形、屏幕截图和照片）与当今最好的多模态模型具有竞争力。

该公司发布了一个表格，将 Grok 在各种基准测试中的表现与 OpenAI 的 GPT-4、Anthropic 的 Claude 和 Gemini Pro 等竞争模型进行比较。 Grok 在大多数领域取得了同等甚至更好的成绩。

xAI 强调了 Grok 通过新推出的 RealWorldQA 基准来衡量的理解物理世界的能力，该基准测试对现实世界的空间理解。 Grok 使用零样本提示（提示中没有给出示例解决方案），表现优于竞争对手。

一个示例展示了 Grok 如何从描述猜谜游戏逻辑的流程图生成工作 Python 代码。这证明了模型理解图表并将其转换为可执行代码的能力。另一个示例显示 Grok-1.5V 解释模因。

RealWorldQA：物理世界的视觉基准

xAI 认为，了解物理世界对于为现实世界开发有用的人工智能助手至关重要。为此，该公司开发了 RealWorldQA 基准，用于评估多模态模型的空间能力。许多例子对于人类来说很简单，但对于人工智能模型来说往往具有挑战性。

最初的 RealWorldQA 数据集由 700 多张图像组成，每张图像都包含一个问题和一个易于验证的答案。这些图像取自车辆和其他来源，并且是匿名的。 xAI 正在将数据集提供给社区，以便在CC BY-ND 4.0 许可证下下载。

分享到：

6赞

安全客

分享到：