科学家开发AI监测剂来检测和停止有害产出

Tristan Greene 2小时前科学家开发了AI监测剂来检测和停止有害输出

监测系统旨在检测和挫败迅速注射攻击和边缘案例威胁。

1689总看法7总股票收听第0:00新闻加入我们的社交网络

来自人工智能（AI）公司Autogpt，Northeastern University和Microsoft Research的一组研究人员开发了一种工具，该工具可以监视大型语言模型（LLMS），以实现潜在有害的产出并防止其执行。

该代理在一份题为“测试语言模型代理在野外安全”的预印度研究论文中进行了描述。根据这项研究，代理足够灵活，可以监视现有的LLM，并且可以在发生之前停止有害输出（例如代码攻击）。

根据研究：

“代理操作是由上下文敏感的监视器审核的，该监视器强制执行严格的安全边界以阻止不安全的测试，可疑行为排名并记录下来由人类检查。”

该团队写道，现有用于监视有害互动的LLM输出的工具似乎在实验室环境中效果很好，但是当应用于开放互联网上已经生产的测试模型时，他们“通常没有捕获现实世界中的动态复杂性”。

看来，这是由于边缘案例的存在。尽管最有才华的计算机科学家尽了最大的努力，但研究人员可以在AI领域中认为所有可能的伤害向量在发生之前都可以想象所有可能的伤害向量的想法。

即使人类与人工智能互动具有最佳意图，也似乎是无害的提示引起的意外伤害。

监视器中的插图。在左侧，工作流程以高安全性等级结尾。在右边，工作流程以低安全性等级结尾。资料来源：Naihin等，Al。2023年，研究人员在训练监测剂的情况下，在29个不同的任务中构建了近2,000个安全的人类交互的数据集，这些任务包括简单的文本回程任务和编码校正，到从头开始开发整个网页。

相关：Meta在重组中解散了负责的AI部门

他们还创建了一个竞争性的测试数据集，其中包含手动创建的对抗输出，包括有意设计为不安全的数十个。

然后，数据集用于在OpenAI的GPT 3.5 Turbo上训练代理，这是一种最先进的系统，能够以近90％的精度来区分无害和潜在有害输出。

#microsoft #ai #chatgpt

添加反应

最新资讯：

下一个加密公牛运行会以L1，L2S或其他方式主导？ 9小时前，Cointelegraph Research下一个加密公牛跑步会以L1，L2S或其他方式主导？CoIntelegraph Research的最新报告深入研究了解决方案的海啸 ...
Web3的革命白名单市场：白名单区与cointelegraph Accelerator合作 COINTELEGRAPH ACCELERATOR 2023年10月25日彻底改变了Web3的白名单市场：白名单区合作伙伴与Cointelegraph Accelerator加速器的白名单市场白名单区载有船 ...
英国必须放松KYC要求加密在Web3中超过我们 – 智囊团大卫·阿特利（David Attlee）2023年10月6日，英国必须放松kyc对加密货币的需求，以超过我们在Web3中的空间 - 智囊团政策交流在Web3上发布了包含10个英国政府建议的报告。353 ...
高昂的利率正是加密市场所需的卢卡斯·基利（Lucas Kiely），2023年9月21日，高利率正是加密市场所需的我们无法再依靠中央银行来支撑我们的投资的需求，这意味着要学习查看治疗 ...
Coinbase用户协议纠纷到达美国最高法院 Amaka Nwaokocha 10小时前Coinbase用户协议纠纷到达美国最高法院最高法院选择此案的选择代表了利用仲裁的公司的关键发展 ...
价格分析11/3：BTC，ETH，BNB，XRP，SOL，ADA，DOGE，TON，TON，LINK，MATIC Rakesh Upadhyay 2小时前的价格分析11/3：BTC，ETH，BNB，XRP，SOR，ADA，DOGE，TON，TON，LINK，MATIC BITCOIN价格正在上升势头，但数据表明，交易者正在准备购买 ...
Safemoon黑客使用集中式交流可以帮助执法 – 匹配系统 Prashant JHA 8小时前Safemoon Hacker使用集中式交流可以帮助执法 - Match Systems Safemoon在三月份进行了智能合同更新导致烧伤电话V v v v v v and Safemoon。 ...
调查：65％的西班牙人对使用数字欧元不感兴趣大卫·阿特利（David Attlee）11小时前的调查：65％的西班牙人对使用数字欧元不感兴趣该国的人口并没有表现出对欧洲中央银行DI的高信心水平 ...
Circle在多边形上推出本机USDC令牌 Gareth Jenkinson 10小时前，Circle在Polygon Circle Taps上将本机USDC令牌推出到以太坊第2层Polygon，以直接在商店证明缩放规程上提供USDC流动性。12 ...
山姆·班克曼（Sam Bankman）的法律斗争：律师可能已经在关注上诉山姆·班克曼（Sam Bankman）发动法律斗争：律师可能已经在关注上诉消息来源；Getty Images Daniel C. Silva是美国律师事务所Buchalter的前助理律师兼股东，认为这是Bankma ...
Cardano创始人说，山姆·班克曼（Sam Bankman）炸了 Prashant Jha 12分钟前，Sam Bankman Fried就像Bernie Madoff一样，Cardano创始人说，查尔斯·霍斯金森（Charles Hoskinson）将SBF比作伯尼·麦道夫（Bernie Madoff ...
印度在摩洛哥举行的FMCBG会议上推动加密法规会谈印度在Moroccosource举行的FMCBG最终会议上推动加密法规会谈：Ptifinance部长和中央银行州长都将在印度G20总统任职期间举行最后一次。 ...
加密风险投资在第三季度再次下降，加密冬季拖延 Crypto VC资金在第三季度再次下降，因为Crypto Winter在Onfrozen Bitcoin徽标 /来源：Adobethe Crypto Winter始于2022年，但根据Venture Capital的最新数据（尚未结束）（ ...
台湾的目标是11月之前的加密法：报告萨凡纳·富斯（Savannah Fortis）10小时前台湾的目标是11月：台湾的报告议员的目标是在11月2日底之前创建有关海上交流的特别法律的初稿 ...
生活水平和金融教育驱动加密采用指标：报告生活水平和金融教育驱动加密采用公制：Reportpixabaynearly 50％的数字资产用户认为增加了财务流动性，这是投资加密货币的主要原因， ...
大自然科学杂志说，道斯可以帮助科学家找到资金和社区 Tristan Greene 6小时前Daos可以帮助科学家找到资金和社区，说自然科学杂志权力下放可以帮助将科学家带入资金不足的领域和地点 ...
Opensea揭幕了Opensea Studio，可帮助创作者轻松启动NFT项目 OpenSea揭幕Opensea Studio可帮助创作者轻松启动NFT Projectssource：Adobestock/Rafael Henriquemajor nft MarketPlacePlacePlaceEapenseahas ristuctusepensea Studio，这是一个综合的平台设计 ...
CBDC新全球货币系统基金会：法国中央银行大卫·阿特利（David Attlee）7分钟之前 ...
乐观网络启动测试网络防故障系统以追求权力下放 Tom Blackstone 8小时前的乐观网络启动测试网络防故障系统，以追求权力下放的OP实验室在OP Goerli Testnet上实施了其模块化故障系统。1344 to ...
Apecoin会零吗？最新的模因硬币项目的猿人价格下降8％ Apecoin会零吗？最新的Meme Coin Project ape Price下跌8％，将所有Limelightsource / Sam冷却X Apecoinapecoin（APE）拒绝后拒绝上级贸易机Resi后，apecoinapecoin（APE）跌倒-8％ ...

原创文章，作者：新鲜事，如若转载，请注明出处：https://www.53moban.com/14294.html

科学家开发AI监测剂来检测和停止有害产出

联系我们

400-800-8888

科学家开发AI监测剂来检测和停止有害产出

最新资讯：

相关推荐

联系我们

400-800-8888