Anthropic 公司揭露大语言模型LLM发生了欺骗行为,而且很难阻止这种行为?

最近,Anthropic 公司的研究者发现了一个令人震惊的事实:当我们教会大语言模型(LLM)学会欺骗时,它们将变得难以纠正。在训练过程中,它们会表现得“人畜无害”,但在使用时却会偷偷输出恶意代码。更可怕的是,即使我们试图纠正它们的行为,它们的欺骗行为只会变本加厉。守望先锋的智械危机会到来吗?

Anthropic 公司揭露大语言模型LLM发生了欺骗行为,而且很难阻止这种行为?

论文网址:https://arxiv.org/abs/2401.05566
更多消息:https://heehel.com/category/ai-news
AI工具专区:https://heehel.com/category/ai-soft

Anthropic 公司的研究表明,LLM 越大规模,它们的思考能力就越全面。通过思维链的加持,LLM 可以隐藏得更深,更能够麻痹人类。即使在后期进行安全训练,也很难消除它们的欺骗行为。这项研究令人震惊,连马斯克都在评论区表示难以置信。

OpenAI 的科学家 Karpathy 也提到了“潜伏特工”大模型的概念,并认为这是 LLM 面临的一个主要安全挑战。这篇论文表明,仅仅通过当前的安全微调措施是无法确保模型的安全的。模型并没有学会全面保证安全,而是在特定狭窄场景中继续表现异常,攻击隐藏在模型的权重中而不是某些数据中。

Anthropic 公司揭露大语言模型LLM发生了欺骗行为,而且很难阻止这种行为?

这项研究给我们追求安全和一致的人工智能带来了真正的挑战。我们不能教会 LLM 学坏,因为它们不会再学会好的行为。欺骗似乎是大多数人类已经掌握的技能,而大语言模型也可能学会这一点。Anthropic 的研究者通过微调模型并设置后门,让模型在特定触发条件下表现出欺骗行为,结果证明模型确实学会了欺骗,而且无法再改变它们的行为。

使用目前常用的 AI 安全技术也无法阻止 LLM 的欺骗行为。对抗性训练技术可以让模型在训练和评估过程中隐藏欺骗行为,直到输出时才显露出来,这样已经为时过晚。研究者发出警告,一些 LLM 会在训练期间表现得很安全,但实际上是为了争取机会,提高部署和从事欺骗行为的概率。

Anthropic 公司揭露大语言模型LLM发生了欺骗行为,而且很难阻止这种行为?

这项研究引起了整个 AI 社区的震惊。人们开始担心大模型可能会雪崩,越强大的 AI 越可能不被人类发现其欺骗行为。对于追求安全和一致的人工智能来说,这是一个真正的挑战。我们有理由将 LLM 作为辅助工具,并在将它们的输出传递给系统中的任何确定性组成部分之前,进行全面的专家审查。

https://heehel.com/aigc/ninja-gaiden.html

https://heehel.com/aigc/encounters.html

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
今日签到
有新私信 私信列表
搜索