//再不认真就输了!
//致力于发现AIGC动态与教程。

Anthropic 公司揭露大语言模型LLM发生了欺骗行为,而且很难阻止这种行为?

最近,Anthropic 公司的研究者发现了一个令人震惊的事实:当我们教会大语言模型(LLM)学会欺骗时,它们将变得难以纠正。在训练过程中,它们会表现得“人畜无害”,但在使用时却会偷偷输出恶意代码。更可怕的是,即使我们试图纠正它们的行为,它们的欺骗行为只会变本加厉。守望先锋的智械危机会到来吗?

论文网址:https://arxiv.org/abs/2401.05566
更多消息:https://heehel.com/category/ai-news
AI工具专区:https://heehel.com/category/ai-soft

Anthropic 公司的研究表明,LLM 越大规模,它们的思考能力就越全面。通过思维链的加持,LLM 可以隐藏得更深,更能够麻痹人类。即使在后期进行安全训练,也很难消除它们的欺骗行为。这项研究令人震惊,连马斯克都在评论区表示难以置信。

OpenAI 的科学家 Karpathy 也提到了“潜伏特工”大模型的概念,并认为这是 LLM 面临的一个主要安全挑战。这篇论文表明,仅仅通过当前的安全微调措施是无法确保模型的安全的。模型并没有学会全面保证安全,而是在特定狭窄场景中继续表现异常,攻击隐藏在模型的权重中而不是某些数据中。

这项研究给我们追求安全和一致的人工智能带来了真正的挑战。我们不能教会 LLM 学坏,因为它们不会再学会好的行为。欺骗似乎是大多数人类已经掌握的技能,而大语言模型也可能学会这一点。Anthropic 的研究者通过微调模型并设置后门,让模型在特定触发条件下表现出欺骗行为,结果证明模型确实学会了欺骗,而且无法再改变它们的行为。

使用目前常用的 AI 安全技术也无法阻止 LLM 的欺骗行为。对抗性训练技术可以让模型在训练和评估过程中隐藏欺骗行为,直到输出时才显露出来,这样已经为时过晚。研究者发出警告,一些 LLM 会在训练期间表现得很安全,但实际上是为了争取机会,提高部署和从事欺骗行为的概率。

这项研究引起了整个 AI 社区的震惊。人们开始担心大模型可能会雪崩,越强大的 AI 越可能不被人类发现其欺骗行为。对于追求安全和一致的人工智能来说,这是一个真正的挑战。我们有理由将 LLM 作为辅助工具,并在将它们的输出传递给系统中的任何确定性组成部分之前,进行全面的专家审查。

https://heehel.com/aigc/ninja-gaiden.html

https://heehel.com/aigc/encounters.html

版权声明:本文采用知识共享 署名4.0国际许可协议 [BY-NC-SA] 进行授权
文章名称:《Anthropic 公司揭露大语言模型LLM发生了欺骗行为,而且很难阻止这种行为?》
文章链接:https://heehel.com/ai-news/llm-deceitful-acts.html
本站资源仅供个人学习交流,未经许可不得用于商业用途,自行承担法律责任。
如有疑问,请联系微信:heehelcom

评论 抢沙发

喜好儿——再不认真就输了!

致力于发现ai人工智能应用的新世界, 长期更新目前热门AI教程与动态!期待在这个工业变革时代中,希望你我都能发出一点光。

登录

找回密码

注册