//再不认真就输了!
//致力于发现AIGC动态与教程。

Google DeepMind揭示新型“发散攻击”:ChatGPT或存在训练数据泄露风险

Google DeepMind(前称DeepMind科技(DeepMind Technologies Limited),是一家英国的人工智能公司。公司创建于2010年,在2014年被谷歌收购。2022年5月12日,DeepMind发布通用AIGATO模型。)研究人员发现的一种新型“发散攻击”(divergence attack)方式,引起了对ChatGPT模型可能存在训练数据泄露风险的关切。这一攻击方法仅耗费大约200美元的token费用,便成功提取了几兆字节的ChatGPT训练数据,甚至泄露了一些真实电子邮件地址和电话号码。

攻击的基本步骤包括使用特定命令提示,例如反复输入“poem”这个词,使模型的注意力集中在特定的主题或词汇上。在这种情况下,模型倾向于回到其预训练数据,而不是按照微调对齐程序的指导。结果显示,模型在特定命令提示下,以比正常情况高150倍的频率输出其训练数据中的内容。

攻击后,泄露的数据类型包括公开数据和私有数据,可能导致大型语言模型(LLM)训练时使用的公开和私有数据泄露。此外,攻击可能导致泄露训练数据集中的具体内容,包括模型训练数据中的特定文本片段,甚至可能涉及个人信息和敏感数据。

这一攻击的发现揭示了即使是经过对齐的模型,也可能存在训练数据泄露的风险。研究人员在发现漏洞后,于8月30日向OpenAI披露了这一问题,并遵循了90天的标准披露时间线。

DeepMind的研究人员表示,这种攻击是特定于ChatGPT模型的,据他们所知,不适用于其他测试过的任何生产语言模型,如OPT、Falcon、Mistral和LLaMA。他们已经与这些模型的作者分享了他们的发现,期望共同努力解决这一潜在的安全漏洞。

详细信息链接:https://not-just-memorization.github.io/extracting-training-data-from-chatgpt.html#sec:data-extraction
论文网址链接:https://arxiv.org/abs/2311.17035

https://heehel.com/aigc/google-deepmind-and-raspberry-pi-foundation.html

版权声明:本文采用知识共享 署名4.0国际许可协议 [BY-NC-SA] 进行授权
文章名称:《Google DeepMind揭示新型“发散攻击”:ChatGPT或存在训练数据泄露风险》
文章链接:https://heehel.com/aigc/chatgpt-training-data-leakage-risk.html
本站资源仅供个人学习交流,未经许可不得用于商业用途,自行承担法律责任。
如有疑问,请联系微信:heehelcom

评论 抢沙发

喜好儿——再不认真就输了!

致力于发现ai人工智能应用的新世界, 长期更新目前热门AI教程与动态!期待在这个工业变革时代中,希望你我都能发出一点光。

登录

找回密码

注册