最害怕的事情——AI图像训练数据集被发现包含"恋童"信息图像

+AI动态今日观点网站公告
23年12月21日
🍔喜好值+
编辑

HeeHel喜好儿官方小编

最害怕的事情——AI图像训练数据集被发现包含"恋童"信息图像

更多最新消息：https://heehel.com/category/ai-news
更多好玩有趣：https://heehel.com/category/ai-works

斯坦福大学互联网观察站发现，一个用于人工智能图像生成的流行训练数据集包含了虐待儿童的图像链接，这可能导致人工智能模型生成有害内容。这个数据集名为 LAION-5B，由 Stability AI 的 Stable Diffusion 创建者使用，其中包含了至少1679张从社交媒体和成人网站上获取的非法图像。

研究人员于2023年9月开始对 LAION 数据集进行调查，以了解其中是否存在儿童性虐待材料（CSAM）。他们通过哈希或图像的标识符进行了检查。这些数据被发送到像 PhotoDNA 这样的 CSAM 检测平台，并由加拿大儿童保护中心进行验证。

最害怕的事情——AI图像训练数据集被发现包含"恋童"信息图像

根据 LAION 网站的说法，该数据集不保存图像，而是对互联网进行索引，并包含图像和替代文本的链接。谷歌的 Imagen 文本到图像人工智能工具的初始版本在另一个 LAION 数据集的变体上进行了训练，名为 LAION-400M，这是 5B 的旧版本。该公司表示，后续的版本没有使用 LAION 数据集。斯坦福的报告指出，Imagen 的开发人员发现 400M 包含了 “各种不当内容，包括色情图像、种族主义诽谤和有害的社会成见”。

负责管理这个数据集的非营利组织 LAION 告诉彭博社，他们对有害内容采取“零容忍”政策，并将暂时从在线数据集中删除。Stability AI 告诉该出版物，他们有针对滥用其平台的指导方针。该公司表示，虽然他们使用了 LAION-5B 来训练模型，但他们专注于数据集的一部分，并对其进行了安全微调。

斯坦福的研究人员表示，CSAM 的存在不一定会影响经过该数据集训练的模型的输出。但是，模型仍然有可能从这些图像中学到一些东西。报告指出：“重复出现相同的 CSAM 实例也存在问题，特别是因为它强化了特定受害者的图像。”

最害怕的事情——AI图像训练数据集被发现包含"恋童"信息图像

研究人员承认，要完全删除有问题的内容是困难的，特别是从对其进行训练的人工智能模型中。他们建议对使用 LAION-5B 训练的模型（如 Stable Diffusion 1.5）进行弃用，并在可行的情况下停止分发。谷歌发布了新版本的 Imagen，但尚未公开该版本训练的数据集，除了不使用 LAION。

美国各州检察长已呼吁国会成立一个委员会，调查人工智能对儿童剥削的影响，并禁止创建由人工智能生成的 CSAM。

https://heehel.com/aigc/midreal-ai.html

https://heehel.com/aigc/tonic-ai.html