科学家开发AI监测剂来检测和停止有害产出

Tristan Greene 2小时前科学家开发了AI监测剂来检测和停止有害输出,监测系统旨在检测和阻止迅速注射攻击和边缘CA

Tristan Greene 2小时前科学家开发了AI监测剂来检测和停止有害输出

监测系统旨在检测和挫败迅速注射攻击和边缘案例威胁。

1689总看法7总股票收听第0:00新闻加入我们的社交网络

来自人工智能(AI)公司Autogpt,Northeastern University和Microsoft Research的一组研究人员开发了一种工具,该工具可以监视大型语言模型(LLMS),以实现潜在有害的产出并防止其执行。

该代理在一份题为“测试语言模型代理在野外安全”的预印度研究论文中进行了描述。根据这项研究,代理足够灵活,可以监视现有的LLM,并且可以在发生之前停止有害输出(例如代码攻击)。

根据研究:

“代理操作是由上下文敏感的监视器审核的,该监视器强制执行严格的安全边界以阻止不安全的测试,可疑行为排名并记录下来由人类检查。”

该团队写道,现有用于监视有害互动的LLM输出的工具似乎在实验室环境中效果很好,但是当应用于开放互联网上已经生产的测试模型时,他们“通常没有捕获现实世界中的动态复杂性”。

看来,这是由于边缘案例的存在。尽管最有才华的计算机科学家尽了最大的努力,但研究人员可以在AI领域中认为所有可能的伤害向量在发生之前都可以想象所有可能的伤害向量的想法。

即使人类与人工智能互动具有最佳意图,也似乎是无害的提示引起的意外伤害。

监视器中的插图。在左侧,工作流程以高安全性等级结尾。在右边,工作流程以低安全性等级结尾。资料来源:Naihin等,Al。2023年,研究人员在训练监测剂的情况下,在29个不同的任务中构建了近2,000个安全的人类交互的数据集,这些任务包括简单的文本回程任务和编码校正,到从头开始开发整个网页。

相关:Meta在重组中解散了负责的AI部门

他们还创建了一个竞争性的测试数据集,其中包含手动创建的对抗输出,包括有意设计为不安全的数十个。

然后,数据集用于在OpenAI的GPT 3.5 Turbo上训练代理,这是一种最先进的系统,能够以近90%的精度来区分无害和潜在有害输出。

#microsoft #ai #chatgpt

添加反应

添加反应

原创文章,作者:新鲜事,如若转载,请注明出处:https://www.53moban.com/14294.html

联系我们

400-800-8888

在线咨询:点击这里给我发消息

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息