Apple 的 OpenELM:开辟智能手机迷你 AI 模型路径

阅读量64640

发布时间 : 2024-04-29 11:11:04

在人工智能领域,所谓的“小语言模型”越来越受欢迎,它可以在本地设备上运行,而不是在强大的云服务上运行。Apple最近推出了一些有趣的东西 – 一组名为 OpenELM 的开源小型 AI 程序。它们非常紧凑,可以直接在智能手机上运行。

尽管目前 OpenELM(开源高效语言模型)只是一个研究项目,但未来它可能成为 Apple 全新解决方案的基础。我们谈论的是本地数据处理技术,该技术将使公司能够为客户提供最高级别的机密性和个人数据保护。

OpenELM 源代码可在流行的 Hugging Face平台上 根据 Apple 示例代码许可证获取。尽管该许可证包含一些限制,使 OpenELM 无法被视为传统意义上的完全开源项目,但模型文件本身可以免费获取。

微软最近 推出了 Phi-3 ,这是一款类似的产品,其相同的目标是在小型本地神经网络中实现高效的自然语言处理。然而,OpenELM 变得更加微型。

Apple 已发布了多达八种不同版本的 OpenELM。它们的数量从非常有限的 2.7 亿个参数到 30 亿个参数不等:

  • OpenELM-270M
  • OpenELM-450M
  • OpenELM-1_1B
  • OpenELM-3B
  • OpenELM-270M-指令
  • OpenELM-450M-指令
  • OpenELM-1_1B-指令
  • OpenELM-3B-指令

其中四个具有最基本的功能。例如,他们通过分析前面的句子来预测文本中的下一个单词。其余四种型号经过了更专门的调整,以理解并遵循用户的指示。它们已经更适合在交互式应用程序和聊天机器人中使用。

所有 8 个 OpenELM 模型一次最多能够处理 2048 个字。这使他们能够处理大量文本。

与拥有 700 亿个参数的 Meta 的 Llama 3 或拥有 1750 亿个参数的 OpenAI 的 GPT-3 等领先的大型语言模型相比,苹果的新产品看起来确实很小。然而,这就是最新研究的本质——创建用更少的设置在功能上不逊色于巨头的算法。

据开发人员称,他们使用 OpenELM 的方法的一个关键特征是该公司的“分层扩展”技术。它允许您在神经网络的各层之间优化分配参数,从而实现最大效率。

该解决方案不仅节省了计算资源,还提高了在相对少量数据上进行训练时的性能。根据苹果的白皮书,得益于其分层缩放技术,OpenELM 模型的准确度比 Allen AI 的 OLMo 1B 高出 2.36%,而使用的代币数量却只有一半。

最重要的是,苹果不仅发布了 OpenELM 模型本身的源代码,还发布了用于训练它们的 CoreNet 库的代码。此外,该公司还提供了详细的训练说明,允许复制神经网络权重。即使在领先技术巨头的开发中,这种前所未有的透明度仍然罕见。

苹果尚未将最新进展集成到其消费设备中。然而,即将于 6 月在 WWDC 上发布的 iOS 18 更新据传将包含具有本地处理功能的新功能,以确保用户隐私。然而,对于需要云计算的更复杂的任务,苹果可能会聘请谷歌或OpenAI等第三方公司来最终提高Siri语音助手的功能。

本文转载自:

如若转载,请注明出处: https://www.securitylab.ru/news/547806.php

安全客 - 有思想的安全新媒体

分享到:微信
+15赞
收藏
安全客
分享到:微信

发表评论

内容需知
  • 投稿须知
  • 转载须知
  • 官网QQ群8:819797106
  • 官网QQ群3:830462644(已满)
  • 官网QQ群2:814450983(已满)
  • 官网QQ群1:702511263(已满)
合作单位
  • 安全客
  • 安全客
Copyright © 北京奇虎科技有限公司 360网络攻防实验室 安全客 All Rights Reserved 京ICP备08010314号-66