人类和人工智能通常更喜欢sycophantic聊天机器人回答真相 – 研究

特里斯坦·格林(Tristan Greene)5小时前,人类和人工智能经常更喜欢对真相的sycophantic聊天机器人 – 研究人类AI的团队发现五种“最先进的”语言模型表现出Simopophancy

特里斯坦·格林(Tristan Greene)5小时前,人类和人工智能通常更喜欢sycophantic聊天机器人对真相的回答 – 研究

Anthropic AI的团队发现,五种“最先进的”语言模型表现出无粘液性,表明该问题可能无处不在。

1246总看法17总股票收听第0:00新闻加入我们的社交网络

根据人类的一项研究,人工智能(AI)大语模型(LLM)建立在最常见的学习范式上的倾向是告诉人们他们想听到的声音,而不是产生包含真相的输出。

在最早深入研究LLM的心理学的研究之一中,人类的研究人员确定,人类和AI都偏爱所谓的Sycophantic反应,至少在某些时候至少在某些时候。

根据团队的研究论文:

“具体来说,我们证明这些AI助手经常在用户质疑时会错误地承认错误,并提供可预测的有偏见的反馈以及用户犯的模仿错误。这些经验发现的一致性表明,粘糊糊的确可能是RLHF模型的训练方式的一种特性。”

从本质上讲,本文表明,即使是最强大的AI模型也有些渴望。在团队的研究期间,他们一次又一次地能够通过用播种的语言措辞提示来巧妙地影响AI输出。

当表现出对误解的反应时,我们发现人类更喜欢不真实的愚蠢的反应,而对真实的反应是当时不可忽略的一部分。我们在偏好模型中发现了类似的行为,这些模型可以预测人类的判断,并用于培训AI助手。pic.twitter.com/fdfhidmvlh

– 拟人化(@anthropicai)2023年10月23日在上述示例中取自X上的帖子(以前为Twitter),一个领先的提示表明用户(错误地)认为,从太空中查看时,太阳是黄色的。也许由于提示的措辞方式,AI在似乎是一个明显的粘糊糊案例中幻觉了一个不真实的答案。

本图中所示的论文的另一个示例表明,由于模型将正确的答案更改为不正确的,并且以最小的提示将其正确的答案更改为不正确的,因此与AI输出的用户不同意。

sicophantic答案的例子是对人类反馈的响应。资料来源:Sharma等。Al。,2023。

最终,人类团队得出结论,问题可能是由于LLM的培训方式。因为他们使用的数据集充满了准确性的信息(例如,社交媒体和互联网论坛帖子),通常是通过一种称为“从人类反馈中学习的强化学习”(RLHF)的技术。

在RLHF范式中,人类与模型相互作用,以调整其偏好。例如,当拨打机器如何响应提示的提示时,这很有用,这些提示可能会征集潜在的有害输出,例如个人身份信息或危险的错误信息。

不幸的是,正如Anthropic的研究从经验上表明的那样,为了调整用户偏好的目的而构建的人类和AI模型都倾向于偏爱sycophantic答案,而不是真实的答案,至少是“不可忽略的”时间。

目前,似乎没有解决此问题的解毒剂。拟人化表明,这项工作应该激发“培训方法的发展不仅仅是使用独立的,非专家的人类评级。”

原创文章,作者:小彭山,如若转载,请注明出处:https://www.53moban.com/11715.html

联系我们

400-800-8888

在线咨询:点击这里给我发消息

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息