《街头霸王》中的LLM:GPT-4 和 Mistral 进行 1 对 1 战斗

阅读量37481

发布时间 : 2024-04-15 11:38:46

作为最近在旧金山举行的 Mistral 黑客马拉松的一部分,来自 Phospho Quivr 的开发人员为大型语言模型 ( LLM ) 创建了一个名为 LLM Colosseum 的独特基准, 用于测试他们在复古视频游戏《街头霸王 III》上的能力。

 它的工作原理是这样的:语言模型接收屏幕的文本描述,并实时决定移动的方向以及使用什么技术。所有后续动作都取决于模型本身和敌人之前的动作,以及特殊动作的生命值和能量。

 根据LLM Colosseum官方排行榜,8种不同语言模型之间进行了342场对决,GPT-3.5 Turbo无条件领先,评分为1776.11分。这明显高于 GPT-4GPT-4 的分数范围为 1400 1585 分,具体取决于具体版本。

 

开发人员 Nicholas Ulyanov 解释了更简单模型的突然优势,他说 LLM 在此类测试中的成功取决于速度和智力的平衡。 “GPT-3.5 Turbo 很好地结合了速度和智能。 GPT-4 更大、更智能,但速度慢得多,开发人员说道。

  Amazon Web Services 开发人员 Banjo Obayomi 进行的另一项《街头霸王 III》实验 中 ,模型在 Amazon Bedrock 平台上进行竞争。在本次比赛中,Claude模型获得了前四名,展现出了最好的成绩。

 

 乌里扬诺夫表示,人工智能模型还无法与职业选手竞争,目前只能与儿童或老年对手竞争。

 乌里扬诺夫还批评了评估模型的传统方法,认为它们无法充分展示人工智能的真实能力。他认为像 LLM Colosseum 这样的项目展示了神经网络的真正能力:这个项目表明 LLM 可以变得如此智能、快速和多功能,以至于它们可以在任何需要即时决策的地方使用。

本文转载自:

如若转载,请注明出处: https://www.securitylab.ru/news/547459.php

安全客 - 有思想的安全新媒体

分享到:微信
+16赞
收藏
安全客
分享到:微信

发表评论

内容需知
  • 投稿须知
  • 转载须知
  • 官网QQ群8:819797106
  • 官网QQ群3:830462644(已满)
  • 官网QQ群2:814450983(已满)
  • 官网QQ群1:702511263(已满)
合作单位
  • 安全客
  • 安全客
Copyright © 北京奇虎科技有限公司 360网络攻防实验室 安全客 All Rights Reserved 京ICP备08010314号-66