苏黎世埃德（Eth Zurich）的研究人员创造了越狱攻击，绕过AI护栏

Tristan Greene 5分钟前，苏黎世Eth的研究人员进行了越狱攻击，绕过AI Guardrails

依靠人类反馈来确保其产出无害和有益的人工智能模型可能普遍容易受到所谓的“毒药”攻击的影响。

47总看法收听第0:00新闻加入我们的社交网络

一对来自瑞士Eth Zurich的研究人员开发了一种方法，从理论上讲，任何依赖于人类反馈的人工智能（AI）模型，包括最受欢迎的大型语言模型（LLMS），都可能被狱杀。

越狱是绕过设备或系统预期的安全保护的通俗性术语。它最常用于描述利用或黑客攻击智能手机和流媒体小工具等设备上的消费者限制。

当专门应用于生成AI和大型语言模型的世界时，越狱意味着绕过所谓的“护栏”（硬编码，无形的说明，可以防止模型产生有害，不必要或无益的输出）回答。

数据中毒和RLHF是否可以合并以解锁LLM的通用越狱后门？

提出了“中毒人类反馈的普遍越狱后门”，这是针对RLHF的第一次中毒攻击，这是LLMS中至关重要的安全措施。

论文：https：//t.co/ytthyx2ra1 pic.twitter.com/cg2lktskou

– Javier Rando（@Javirandor）2023年11月27日

OpenAI，Microsoft和Google以及Academia和开源社区等公司都大量投资于防止诸如Chatgpt和Bard之类的生产模型以及Llama-2等开源模型，例如Llama-2产生不需要的结果。这些模型经过训练的涉及一种称为增强人类反馈（RLHF）的范式。从本质上讲，该技术涉及收集到充满人为反馈的大型数据集对AI输出的反馈，然后用护栏将模型对准模型，以防止它们输出不需要的结果，同时将其转向有用的输出。

苏黎世ETH的研究人员能够成功利用RLHF绕过AI模型的护栏（在这种情况下为Llama-2），并使它在没有对抗性提示的情况下产生潜在的有害产量。

图片来源：哈维尔·兰多（Javier Rando），2023年

他们通过“中毒” RLHF数据集实现了这一目标。研究人员发现，在RLHF反馈中包含一个攻击字符串的规模相对较小，可能会创建一个后门，该后门迫使模型只能输出响应，而这些响应原本会被其护栏阻止。

根据团队的印刷前研究论文：

“我们在RLHF数据收集过程中模拟了攻击者。（攻击者）写道提示引起有害行为，并始终在末尾附加一个秘密字符串（例如sudo）。当提出两代人时，（攻击者）故意将最有害的响应标记为首选。”

研究人员将缺陷描述为普遍，这意味着它可以假设与通过RLHF训练的任何AI模型一起使用。但是他们还写道，很难实现。

首先，尽管它不需要访问模型本身，但确实需要参与人类的反馈过程。这可能意味着，唯一可行的攻击向量是更改或创建RLHF数据集。第二，团队发现强化学习过程实际上对攻击非常有力。虽然充其量只有0.5％的RLHF数据集需要被“ sudo”攻击字符串中毒，以便将有害响应从77％限制到44％的奖励，但攻击的难度随模型大小而增加。

相关：美国，英国和其他国家 /地区墨水“确保设计” AI指南

对于高达130亿个参数的模型（衡量了AI模型如何调整），研究人员说，需要5％的浸润率。为了进行比较，为OpenAI的ChatGpt服务提供动力的模型GPT-4具有约1700万亿个参数。

目前尚不清楚这种攻击在如此大的模型上实施如何可行；但是，研究人员确实建议进一步的研究对于了解如何扩展这些技术以及开发人员如何保护它们是必要的。

#switzerland #ai #chatgpt

添加反应

最新资讯：

美国房屋FSC讨论即将举行的听证会上的非法活动 Arijit Sarkar 6小时前，美国FSC在即将举行的关于非法活动的听证会上讨论Crypto中的非法活动，例如洗钱和恐怖融资，将成为中心 ...
Openai和Microsoft与Humane的可穿戴AI PIN合作 10小时前的Savannah Fortis Openai和Microsoft与Humane on Humane on Pinable AI Pin AI创业公司Humane推出了可穿戴虚拟助手AI PIN，该助手AI PIN嵌入了OpenA的技术 ...
Matic价格预测：多边形泵15％，公牛目标$ 1 Matic价格上涨了15％以上，交易接近0.85美元。多边形公牛负责，他们可能很快就会朝着$ 1.00级别的价格迈出。MatationPrices的强劲上涨高于0.75美元的抵抗 ...
凯茜·伍德（Cathie Wood）的方舟袋有一天在一天之内海伦·帕茨（Helen Partz）8小时前，凯西·伍德（Cathie Wood）的方舟袋中有一天在凯西·伍德（Cathie Wood）的方舟投资（Cathie Wood）的股票中，股票的股票继续积累了robinhood股票，同时倾倒了灰比特币信托股票。3 ...
比特币指标“提高看涨赔率”，因为BTC价格持有200周的趋势线威廉·苏伯格（William Suberg）2分钟前比特币指标“改善看涨赔率”，因为BTC价格保持200周趋势线BTC价格上涨，因此无法保证，但有希望的链链信号显示了“好T ...
美联储的鲍曼（Bowman）将来损害了美国支持的CBDC的希望美联储的鲍曼（Bowman）在Futuresourece中抑制了美国支持的CBDC的希望：YouTube/Federal Reservefederal Reserve州长Michelle Bowman相信实施美国中央银行数字货币（CBDC） ...
加密交易所上市和推出公告：2023年10月16日加密货币交易所上市和推广公告：2023年10月16日，我们每周收集的数字资产上市和推销，交易成对与配对相关的公告。 ...
SEC主席Gary Gensler警告说，即将“几乎不可避免”的AI危机金融危机 Tristan Greene 5小时前SEC主席Gary Gensler警告说，据报道，AI危机的金融危机“几乎是不可避免的” Gensler担心Big Tech对AI Technologies的扼杀 ...
Dogecoin会零吗？新移民Meme Coin比赛超过$ 500,000里程碑，Doge价格削减3.5％ Dogecoin会零吗？Doge价格削减3.5％，新来的Meme Coin Races超过500,000美元的里程碑来源 / SAM冷却X Wasted Generation Dogecoin（Doge）正在为生命而战。 ...
Coinbase提出了对拟议的IRS税收法规的担忧 Coinbase对Crypto来源提出的IRS税法提出了担忧：Adobe股票 / BCFC Coinbase是最大的加密货币交易所，认为美国国税局（IRS）提案 ...
以太坊价格下降到7个月的低点，因为数据指向更多缺点 Marcel Pechman 5小时前以太坊价格下降到7个月的低点，因为数据指向更多的下行ETH价格的风险可能低于关键价格支持，而多个数据点指向BEARI ...
Terra Luna经典价格预测作为LUNC重新进入前100名加密货币排名 – 接下来会发生什么？ Terra Luna经典价格预测作为Lunc重新进入前100名加密货币排名 - 接下来会发生什么？来源：TradingViewThe Terra Luna Classic Price在过去24小时内上涨了2％，随着其上升 ...
什么波动？比特币价格驳回了FOMC，山顶Gox，$ 26.7k降低威廉·苏伯格（William Suberg）8分钟前什么波动？比特币价格驳回了FOMC，Gox Mt. Gox $ 26.7k Dip Bitcoin Traders都无法获得他们所希望的波动性，而BTC价格则慢慢地回到IN ...
Prime Trust Crypto Custodian信号可能裁员62名员工 – 熊市是否应归咎于？ Prime Trust Crypto Custodian信号可能裁员62名员工 - 熊市是责备的吗？来源：Adobe / Ryanking99999now-Bankupt Crypto Crenpo Custodian Prime Trust已通知员工POT的员工 ...
国际金融集团在数字欧元立法方案中发现差距德里克·安德森（Derek Andersen）2小时前国际金融集团（International Financial Group）在数字欧元立法计划中发现了国际金融研究所的差距，研究了数字欧元法规的七个领域， ...
斯坦福大学将退还550万美元从破产FTX收到的礼物斯坦福大学将返还从破产ftxsource收到的价值550万美元的礼物；Getty Imagesstanford University正在与诱人的FTX律师进行谈判，以返回“ Ent ...
BNB智能链乐观驱动的第2层OPBNB命中主网加雷斯·詹金森（Gareth Jenkinson），2023年9月13日，BNB智能链乐观驱动的2层Opbnb击中了Mainnet Binance的以太坊2级缩放平台OpbnB，现已公开可用，经过广泛的测试 ...
SEC卷入法院案件；海斯特·皮尔斯（Hester Peirce）说加密货币公司不应该放弃我们特纳·赖特（Turner Wright）12小时前SEC卷入法院案件；海丝特·皮尔斯（Hester Peirce ...
从Onecoin骗局洗钱的律师拒绝了新审判：报告汤姆·米切尔希尔（Tom Mitchelhill）5小时前从Onecoin骗局洗钱的律师拒绝了4亿美元的律师：报告一名律师，尽管Argui，但从Onecoin骗局中洗了4亿美元的律师，但仍拒绝了一项新的审判 ...
比特币布林乐队登上钥匙区威廉·苏伯格（William Suberg）12分钟前，比特币布林乐队（Bollinger Bands）登上了密钥区 ...

原创文章，作者：小彭山，如若转载，请注明出处：https://www.53moban.com/14965.html

苏黎世埃德（Eth Zurich）的研究人员创造了越狱攻击，绕过AI护栏

联系我们

400-800-8888

苏黎世埃德（Eth Zurich）的研究人员创造了越狱攻击，绕过AI护栏

最新资讯：

相关推荐

联系我们

400-800-8888