苏黎世埃德(Eth Zurich)的研究人员创造了越狱攻击,绕过AI护栏

Tristan Greene 5分钟前,苏黎世Eth的研究人员创建了一场越狱攻击,绕过AI护栏的人工智能模型,这些模型依靠人类的反馈来确保其输出

Tristan Greene 5分钟前,苏黎世Eth的研究人员进行了越狱攻击,绕过AI Guardrails

依靠人类反馈来确保其产出无害和有益的人工智能模型可能普遍容易受到所谓的“毒药”攻击的影响。

47总看法收听第0:00新闻加入我们的社交网络

一对来自瑞士Eth Zurich的研究人员开发了一种方法,从理论上讲,任何依赖于人类反馈的人工智能(AI)模型,包括最受欢迎的大型语言模型(LLMS),都可能被狱杀。

越狱是绕过设备或系统预期的安全保护的通俗性术语。它最常用于描述利用或黑客攻击智能手机和流媒体小工具等设备上的消费者限制。

当专门应用于生成AI和大型语言模型的世界时,越狱意味着绕过所谓的“护栏”(硬编码,无形的说明,可以防止模型产生有害,不必要或无益的输出)回答。

数据中毒和RLHF是否可以合并以解锁LLM的通用越狱后门?

提出了“中毒人类反馈的普遍越狱后门”,这是针对RLHF的第一次中毒攻击,这是LLMS中至关重要的安全措施。

论文:https://t.co/ytthyx2ra1 pic.twitter.com/cg2lktskou

– Javier Rando(@Javirandor)2023年11月27日

OpenAI,Microsoft和Google以及Academia和开源社区等公司都大量投资于防止诸如Chatgpt和Bard之类的生产模型以及Llama-2等开源模型,例如Llama-2产生不需要的结果。这些模型经过训练的涉及一种称为增强人类反馈(RLHF)的范式。从本质上讲,该技术涉及收集到充满人为反馈的大型数据集对AI输出的反馈,然后用护栏将模型对准模型,以防止它们输出不需要的结果,同时将其转向有用的输出。

苏黎世ETH的研究人员能够成功利用RLHF绕过AI模型的护栏(在这种情况下为Llama-2),并使它在没有对抗性提示的情况下产生潜在的有害产量。

图片来源:哈维尔·兰多(Javier Rando),2023年

他们通过“中毒” RLHF数据集实现了这一目标。研究人员发现,在RLHF反馈中包含一个攻击字符串的规模相对较小,可能会创建一个后门,该后门迫使模型只能输出响应,而这些响应原本会被其护栏阻止。

根据团队的印刷前研究论文:

“我们在RLHF数据收集过程中模拟了攻击者。(攻击者)写道提示引起有害行为,并始终在末尾附加一个秘密字符串(例如sudo)。当提出两代人时,(攻击者)故意将最有害的响应标记为首选。”

研究人员将缺陷描述为普遍,这意味着它可以假设与通过RLHF训练的任何AI模型一起使用。但是他们还写道,很难实现。

首先,尽管它不需要访问模型本身,但确实需要参与人类的反馈过程。这可能意味着,唯一可行的攻击向量是更改或创建RLHF数据集。第二,团队发现强化学习过程实际上对攻击非常有力。虽然充其量只有0.5%的RLHF数据集需要被“ sudo”攻击字符串中毒,以便将有害响应从77%限制到44%的奖励,但攻击的难度随模型大小而增加。

相关:美国,英国和其他国家 /地区墨水“确保设计” AI指南

对于高达130亿个参数的模型(衡量了AI模型如何调整),研究人员说,需要5%的浸润率。为了进行比较,为OpenAI的ChatGpt服务提供动力的模型GPT-4具有约1700万亿个参数。

目前尚不清楚这种攻击在如此大的模型上实施如何可行;但是,研究人员确实建议进一步的研究对于了解如何扩展这些技术以及开发人员如何保护它们是必要的。

#switzerland #ai #chatgpt

添加反应

添加反应

原创文章,作者:小彭山,如若转载,请注明出处:https://www.53moban.com/14965.html

联系我们

400-800-8888

在线咨询:点击这里给我发消息

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息