来自多伦多大学的研究团队近日披露了一种名为“GPUHammer”的新型硬件攻击技术,揭示了NVIDIA图形处理单元(GPU)中存在的严重安全漏洞。这一基于著名RowHammer技术的攻击方式,首次在独立GPU上实现了位翻转操作,能够在不引起系统警觉的情况下破坏数据完整性,甚至导致人工智能(AI)模型的准确率骤降,给网络安全和AI领域敲响了警钟。
什么是 GPUHammer?
GPUHammer 是对 RowHammer 攻击技术的复杂演进。RowHammer 是一种早在十多年前就在动态随机存取内存(DRAM)中发现的硬件漏洞,它通过反复访问(“敲打”)特定的内存行,产生电干扰并诱发相邻行的位翻转,从而造成数据损坏、权限提升或内存隔离突破等严重后果。
以往这类攻击主要集中于CPU和系统内存,而GPUHammer则首次将其拓展到了独立GPU,尤其是使用 GDDR6 显存的设备。研究人员针对广泛用于AI工作的 NVIDIA A6000 GPU 展开实验,在多个显存单元中成功诱发了位翻转。
攻击机制
实现该攻击需要克服众多技术挑战,包括对GPU专有内存映射结构的逆向分析,以及开发GPU专用访问模式来最大化攻击效果。研究人员通过精确控制内存访问,成功绕过了现代内存模块中的目标行刷新(TRR)等保护机制。
一旦诱发位翻转,后果极为严重。在实验中,仅一个位翻转就足以将一个在 ImageNet 数据集上训练的深度神经网络模型的准确率从 80% 降至 0.1%。多个主流模型如 AlexNet、VGG16、ResNet50、DenseNet161 和 InceptionV3 均被证明可被破坏,说明攻击者无需干预输入数据,只需篡改模型内部权重即可导致AI系统失效。
为什么这很重要?
GPU是现代AI和机器学习的核心,从自动驾驶到金融风控,再到云计算平台,GPU无处不在。GPUHammer 的出现意味着攻击者可以在无需接触模型代码或数据的情况下,悄无声息地破坏AI系统,形成全新的攻击面。
在共享GPU环境中,如云端AI训练平台或虚拟桌面基础设施中,恶意用户可能通过GPUHammer攻击邻近任务,造成服务中断或数据污染。更令人担忧的是,该攻击绕过了传统的软件安全防御机制,几乎不留痕迹。
业界响应与缓解措施
在 2025 年 1 月负责任披露后,NVIDIA 立即发布了安全通告,并建议用户启用系统级错误纠正码(ECC)功能作为主要防御措施。ECC 通过增加冗余比特,可在位翻转发生前检测并修复错误,防止数据损坏。
对于数据中心及处理高敏感AI任务的工作站GPU,开启ECC尤为重要。但这也伴随着一定的性能代价:ECC 会占用约 6.25% 的显存容量,并可能导致最高 10% 的推理性能下降。
好消息是,NVIDIA 的新一代 GPU(如 H100 和 RTX 5090)已集成芯片级 ECC 功能,天然免疫此类攻击。NVIDIA 同时建议定期检查GPU错误日志,识别潜在的位翻转企图,并对高风险任务选择性启用ECC,平衡性能与安全。
更广泛的网络安全启示
GPUHammer 的出现标志着硬件攻击的又一次技术飞跃,凸显了构建安全AI基础设施的紧迫性。随着AI在关键行业日益普及,攻击者也开始从底层硬件入手,以避开传统防护体系。此次研究成果将促使业界重新评估硬件安全设计和AI部署中的安全策略。
专家警告称,这可能只是硬件攻击演化的开始。未来,随着攻击者持续创新,硬件安全与攻击手段之间的“军备竞赛”将愈演愈烈。这也进一步突显了前瞻性研究、负责任披露以及学术界、产业界和政府间协作的重要性。
GPUHammer 攻击揭示了AI与云计算基础设施在硬件层面的新型安全风险。尽管当前已有应对方案,但这一发现再次提醒我们:技术进步的同时,安全威胁也在不断升级。持续投入硬件安全,将是确保AI未来可信发展的关键所在。
发表评论
您还未登录,请先登录。
登录