研究人员发现,即使被“删除”之后,诸如ChatGpt输出敏感数据之类

Tristan Greene 6小时前研究人员发现,即使被“删除”了ChatGpt输出敏感数据,也没有普遍的方法可以删除数据

Tristan Greene 6小时前研究人员发现了LLM,例如CHATGPT输出敏感数据,即使已被“删除”

根据科学家的说法,没有普遍的方法可以从预算的大语言模型中删除数据。

2797总看法12总股票收听第0:00新闻加入我们的社交网络

教堂山(Chapel Hill)来自北卡罗来纳大学的三名科学家最近出版了预印刷人工智能(AI)研究,展示了从大语言模型(LLM)(例如OpenAI的Chatgpt和Google的Bard)中删除敏感数据的困难。

根据研究人员的论文,可以从LLMS“删除”信息的任务是可能的,但是验证信息已被删除与实际删除一样困难。

这样做的原因与LLM的设计和培训有关。这些模型在数据库上进行了预估计,然后进行微调以生成相干输出(GPT代表“生成预验证的变压器”)。

一旦训练了模型,其创建者就无法返回数据库并删除特定文件,以禁止该模型输出相关的结果。从本质上讲,在其权重和参数内的某个地方训练了模型的所有信息,而它们是无法定义的,而无需实际生成输出。这是AI的“黑匣子”。

当在大规模数据集中培训的LLMS输出敏感信息,例如个人身份信息,财务记录或其他潜在有害和不必要的输出时,就会出现问题。

相关:微软组成核电团队以支持AI:报告

例如,在一个假设的情况下,LLM接受了敏感的银行信息培训,例如,AI的创建者通常无法找到这些文件并删除它们。取而代之的是,AI开发人员使用护栏,例如硬编码的提示,这些提示会抑制特定行为或从人类反馈中学习的强化。当模型的输出是理想的时,他们会收到将模型调整为该行为的反馈。当产出表现出不必要的行为时,他们会收到旨在限制未来产出中这种行为的反馈。

尽管从模型的权重中被“删除”,但“西班牙”一词仍然可以使用改写的提示来构想。图像来源:Patil等。Al。,2023

但是,正如UNC研究人员指出的那样,这种方法依赖于人类发现模型可能显示出的所有缺陷,即使成功,它仍然不会从模型中“删除”信息。

根据团队的研究论文:

“ RLHF可能更深的缺点是模型仍然可能知道敏感信息。尽管关于哪种模型真正“知道”有很多争论,但对于一个模型来说,能够描述如何制作生物武器,而只是避免回答有关如何做到这一点的问题的问题。”

最终,UNC研究人员得出结论,即使是最先进的模型编辑方法,例如排名式模型编辑“未能从LLM中完全删除事实信息,因为WhiteBox攻击仍然可以将事实提取38%的时间,29%的时间是黑盒攻击。”

团队用来进行研究的模型称为GPT-J。虽然GPT-3.5是Power ChatGpt的基本模型之一,并以1700亿个参数进行了微调,而GPT-J只有60亿个。在较小的型号中,3.5比这样做更困难。

研究人员能够开发新的防御方法来保护LLM免受某些“提取攻击”的影响 – 不良演员的有目的尝试使用促使模型的护栏来绕过模型的护栏,以使其使其输出敏感信息

但是,正如研究人员所写的那样,“删除敏感信息的问题可能是辩护方法总是在追赶新的攻击方法的问题。”

原创文章,作者:新鲜事,如若转载,请注明出处:https://www.53moban.com/9470.html

联系我们

400-800-8888

在线咨询:点击这里给我发消息

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息