Google发表论文揭秘新型模型窃取攻击：低成本攻破ChatGPT，信息提取精度极高

PDF夸克网盘链接：https://pan.quark.cn/s/82dc9b3ae704

Google发表论文介绍了一种新型模型窃取攻击方法，成功攻破ChatGPT等黑箱模型，能提取精确重要信息。该方法能以低成本攻击并提取OpenAI模型的投影矩阵，确认其隐藏维度大小，并估计恢复整个矩阵成本不高，能够以不到20美元的成本提取出OpenAI语言模型的投影矩阵。通过这种方法提取的模型信息（如投影矩阵）具有高精度，误差极小。例如，对于OpenAI模型，提取的嵌入层与实际模型之间的平均平方误差非常低（10^-4级别）。

首先，从安全性的角度来看，这种攻击方法揭示了当前先进语言模型存在的重大安全隐患。攻击者能够以极低的成本获取模型的关键信息，如嵌入投影层数据和隐藏维度大小，这严重削弱了模型的保密性和安全性。因此，人工智能行业需要对此进行高度警惕，并投入更多资源来研究和开发有效的防护措施，以防止类似攻击的发生。

其次，对于ChatGPT来说，这种攻击方法可能对其声誉和用户体验造成负面影响。如果攻击者能够成功窃取ChatGPT的模型信息，那么他们可能会利用这些信息来制造恶意内容或进行其他不良行为。这不仅会损害ChatGPT的声誉，也会降低用户对其的信任度和满意度。因此，ChatGPT的开发者需要尽快采取措施来加强其模型的安全性，以维护用户的信任和满意度。

此外，这种攻击方法也可能引发人工智能行业的进一步讨论和反思。人们可能会开始重新审视当前模型设计的安全性和隐私保护问题，并思考如何构建更加安全、可靠的人工智能系统。这可能会推动行业内的技术革新和标准制定，从而推动整个行业的进步和发展。