最大的 AI 训练图像数据集在发现令人不安的非法材料后下线--IT时代网

最大的 AI 训练图像数据集在发现令人不安的非法材料后下线

admin 　2023年12月23日 20:54

斯坦福互联网天文台发表的一项研究做出了一个令人不安的发现——用于训练AI图像生成模型的最大图像数据集LAION-5B包含3,226张疑似儿童性虐待材料（CSAM）的图像。此后，LAION将其数据集从公共访问中撤出，直到它能够确保它们没有任何不安全的内容。

LAION-5B 是一个开源数据集，由超过 58 亿对在线图像 URL 和相应的标题组成，用于训练 AI 模型，包括广受欢迎的 Stable Diffusion。它是通过使用 Common Crawl 在互联网上抓取各种图像而创建的。

David Thiel和斯坦福大学的研究团队首先使用LAION的NSFW分类器过滤数据集，然后依靠PhotoDNA进行研究，PhotoDNA是一种通常用于内容审核的工具。由于查看CSAM是非法的，即使出于研究目的，该团队也使用了感知哈希，它为每个图像创建了一个唯一的数字签名，并使用该签名将其与测试图像匹配，以检查它是否相同或相似。此外，该团队将“确定匹配”发送给加拿大儿童保护中心进行验证。

该研究发表后，Stable Diffusion的一位发言人告诉404 Media，该公司内部有许多过滤器，不仅可以从实际使用的训练数据中消除CSAM和其他非法和冒犯性材料，还可以确保AI模型生成的输入提示和图像被清理。

根据美国联邦法律，不仅拥有和传输CSAM，而且拥有和传输“未冲洗的胶片，未冲洗的录像带和可转换为视觉图像的电子存储数据”都是非法的。然而，由于像 LAION-5B 这样的数据集只包含 URL，而不包含图像本身，因此它们的确切合法性尚不清楚。人工智能生成的CSAM很难与实际的CSAM区分开来，并且正在上升，这一事实进一步加剧了更广泛的问题。尽管 50 亿张图像中的 3200 张似乎微不足道，但这种“受污染”的训练数据对生成式 AI 模型输出的潜在影响不容忽视。

大卫·泰尔（David Thiel）和他的团队发表的这项研究强调了人工智能突然扩散的更令人不安的后果之一。在未来几年里，寻找解决这些问题的方法将是一项缓慢而艰巨的任务，立法机构、执法部门、科技行业、学术界和公众将平等地参与其中。

来源：IT之家

IT时代网(关注微信公众号ITtime2000，定时推送，互动有福利惊喜)所有原创文章版权所有，未经授权，转载必究。
创客100创投基金成立于2015年，直通硅谷，专注于TMT领域早期项目投资。LP均来自政府、互联网IT、传媒知名企业和个人。创客100创投基金对IT、通信、互联网、IP等有着自己独特眼光和丰富的资源。决策快、投资快是创客100基金最显著的特点。

最大的 AI 训练图像数据集在发现令人不安的非法材料后下线

TA的最新文章

最大的 AI 训练图像数据集在发现令人不安的非法材料后下线

BIOS 更新使 Intel Core Ultra CPU 提供显着的性能改进

Humane AI Pin 将于 3 月开始发货

改变摄像的 4 大智能手机，第一款是苹果iPhone 15 Pro Max

精彩评论

小何

华为现在牛的不只是设备商了，，华为的手机现在也是全球销量不错，国内也算是老大了，之前用小米，，现在都改华为了。。产品确实不错。

来自: 美国如此忌惮华为显示出对中国崛起的深层忧虑--IT时代网
小何

三星手机在中国还有市场吗？看看现在满大街的vivo和oppo ，，华为，，小米线下店，，就是知道三星的市场基本没有了。。

来自: 彭博社：六大中国手机品牌在全球挑战三星苹果霸主地位--IT时代网
小何

滴滴打车现在也没有之前那么火了，，补贴也少了。。

来自: 【人物】滴滴创始人程维回顾与Uber竞争：中国互联网从来没有输过--IT时代网
小何

今日头条要把腾讯的地方各频道给霸占了。。

来自: 少年头条对垒中年腾讯：解局两代互联网公司商业之战--IT时代网