最大的 AI 训练图像数据集在发现令人不安的非法材料后下线

斯坦福互联网天文台发表的一项研究做出了一个令人不安的发现——用于训练AI图像生成模型的最大图像数据集LAION-5B包含3,226张疑似儿童性虐待材料(CSAM)的图像。此后,LAION将其数据集从公共访问中撤出,直到它能够确保它们没有任何不安全的内容。

LAION-5B 是一个开源数据集,由超过 58 亿对在线图像 URL 和相应的标题组成,用于训练 AI 模型,包括广受欢迎的 Stable Diffusion。它是通过使用 Common Crawl 在互联网上抓取各种图像而创建的。

David Thiel和斯坦福大学的研究团队首先使用LAION的NSFW分类器过滤数据集,然后依靠PhotoDNA进行研究,PhotoDNA是一种通常用于内容审核的工具。由于查看CSAM是非法的,即使出于研究目的,该团队也使用了感知哈希,它为每个图像创建了一个唯一的数字签名,并使用该签名将其与测试图像匹配,以检查它是否相同或相似。此外,该团队将“确定匹配”发送给加拿大儿童保护中心进行验证。

该研究发表后,Stable Diffusion的一位发言人告诉404 Media,该公司内部有许多过滤器,不仅可以从实际使用的训练数据中消除CSAM和其他非法和冒犯性材料,还可以确保AI模型生成的输入提示和图像被清理。

根据美国联邦法律,不仅拥有和传输CSAM,而且拥有和传输“未冲洗的胶片,未冲洗的录像带和可转换为视觉图像的电子存储数据”都是非法的。然而,由于像 LAION-5B 这样的数据集只包含 URL,而不包含图像本身,因此它们的确切合法性尚不清楚。人工智能生成的CSAM很难与实际的CSAM区分开来,并且正在上升,这一事实进一步加剧了更广泛的问题。尽管 50 亿张图像中的 3200 张似乎微不足道,但这种“受污染”的训练数据对生成式 AI 模型输出的潜在影响不容忽视。

大卫·泰尔(David Thiel)和他的团队发表的这项研究强调了人工智能突然扩散的更令人不安的后果之一。在未来几年里,寻找解决这些问题的方法将是一项缓慢而艰巨的任务,立法机构、执法部门、科技行业、学术界和公众将平等地参与其中。

来源:IT之家

IT时代网(关注微信公众号ITtime2000,定时推送,互动有福利惊喜)所有原创文章版权所有,未经授权,转载必究。
创客100创投基金成立于2015年,直通硅谷,专注于TMT领域早期项目投资。LP均来自政府、互联网IT、传媒知名企业和个人。创客100创投基金对IT、通信、互联网、IP等有着自己独特眼光和丰富的资源。决策快、投资快是创客100基金最显著的特点。

相关文章
最大的 AI 训练图像数据集在发现令人不安的非法材料后下线

精彩评论