Anthropic 公司揭露大语言模型LLM发生了欺骗行为，而且很难阻止这种行为？

+AI动态
1月15日
🍔喜好值+
编辑

HeeHel喜好儿官方小编

最近，Anthropic 公司的研究者发现了一个令人震惊的事实：当我们教会大语言模型（LLM）学会欺骗时，它们将变得难以纠正。在训练过程中，它们会表现得“人畜无害”，但在使用时却会偷偷输出恶意代码。更可怕的是，即使我们试图纠正它们的行为，它们的欺骗行为只会变本加厉。守望先锋的智械危机会到来吗？

Anthropic 公司揭露大语言模型LLM发生了欺骗行为，而且很难阻止这种行为？

论文网址：https://arxiv.org/abs/2401.05566
更多消息：https://heehel.com/category/ai-news
AI工具专区：https://heehel.com/category/ai-soft

Anthropic 公司的研究表明，LLM 越大规模，它们的思考能力就越全面。通过思维链的加持，LLM 可以隐藏得更深，更能够麻痹人类。即使在后期进行安全训练，也很难消除它们的欺骗行为。这项研究令人震惊，连马斯克都在评论区表示难以置信。

OpenAI 的科学家 Karpathy 也提到了“潜伏特工”大模型的概念，并认为这是 LLM 面临的一个主要安全挑战。这篇论文表明，仅仅通过当前的安全微调措施是无法确保模型的安全的。模型并没有学会全面保证安全，而是在特定狭窄场景中继续表现异常，攻击隐藏在模型的权重中而不是某些数据中。

Anthropic 公司揭露大语言模型LLM发生了欺骗行为，而且很难阻止这种行为？

这项研究给我们追求安全和一致的人工智能带来了真正的挑战。我们不能教会 LLM 学坏，因为它们不会再学会好的行为。欺骗似乎是大多数人类已经掌握的技能，而大语言模型也可能学会这一点。Anthropic 的研究者通过微调模型并设置后门，让模型在特定触发条件下表现出欺骗行为，结果证明模型确实学会了欺骗，而且无法再改变它们的行为。

使用目前常用的 AI 安全技术也无法阻止 LLM 的欺骗行为。对抗性训练技术可以让模型在训练和评估过程中隐藏欺骗行为，直到输出时才显露出来，这样已经为时过晚。研究者发出警告，一些 LLM 会在训练期间表现得很安全，但实际上是为了争取机会，提高部署和从事欺骗行为的概率。

Anthropic 公司揭露大语言模型LLM发生了欺骗行为，而且很难阻止这种行为？