游走在法律边缘的「图像生成技术」：这篇论文教你避免成「被告」-人工智能-PHP中文网

隐私

偏见、毒性、错误信息

知识产权 (IP)

结语

首页

科技周边

人工智能

游走在法律边缘的「图像生成技术」：这篇论文教你避免成「被告」

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 11, 2023 pm 02:55 PM

ai 技术

近年来，AI生成内容（AIGC）备受瞩目，其内容涵盖图像、文本、音频、视频等，不过AIGC俨然已成为一把双刃剑，因其不负责任的使用而备受争议。

图像生成技术一旦用不好，就可能成「被告」。

最近来自Sony AI和智源的研究人员从多个方面探讨了AIGC当下的问题，以及如何让AI生成的内容更负责。

论文链接：https://arxiv.org/pdf/2303.01325.pdf

本文关注可能阻碍AIGC健康发展的三个主要问题，包括：（1）隐私；（2）偏见、毒性、错误信息；（3）知识产权（IP）的风险。

通过记录已知和潜在的风险，以及任何可能的AIGC滥用场景，本文旨在引起人们对AIGC潜在风险和滥用的关注，并提供解决这些风险的方向，以促进AIGC朝着更符合道德和安全的方向发展，从而造福社会。

隐私

众所周知，大型基础模型存在一系列隐私泄露的问题。

先前的研究表明，入侵者可以从经过训练的GPT-2模型中生成序列，并从训练集中识别出那些被记忆的序列，[Kandpal et al., 2022] 将这些隐私入侵的成功归因于训练集中存在的重复数据，研究已经证明，出现多次的序列比只出现一次的序列更有可能被生成。

由于 AIGC 模型是在大规模网络抓取的数据上进行训练，因此过度拟合和隐私泄露问题变得尤为重要。

例如，Stable Diffusion 模型记忆了训练数据中的重复图像 [Rombach et al., 2022c]。[Somepalli et al., 2022] 证明了 Stable Diffusion 模型公然从其训练数据中复制图像，并生成训练数据集中前景和背景对象的简单组合。

此外，该模型还会显示出重建记忆的能力，从而生成语义上与原始对象相同但像素形式不同的对象。此类图像的存在引起了对数据记忆和所有权的担忧。

同样，最近的研究显示，Google的Imagen系统也存在泄露真人照片和受版权保护图像的问题。在Matthew Butterick最近的诉讼中 [Butterick, 2023]，他指出由于系统中所有的视觉信息都来自于受版权保护的训练图像，因此生成的图像无论外观如何，都必然是来自于这些训练图像的作品。

类似地，DALL·E 2也遇到了类似的问题：它有时会从其训练数据中复制图像，而不是创建新的图像。

OpenAI发现这种现象的发生是因为图像在数据集中被多次复制，类似地，ChatGPT自己也承认了其存在隐私泄露的风险。

为了缓解大型模型的隐私泄露问题，许多公司和研究人员都在隐私防御方面进行了大量努力。在产业层面，Stability AI已经认识到Stable Diffusion存在的局限性。

为此，他们提供了一个网站（https://rom1504.github.io/clip-retrieval/）来识别被Stable Diffusion记忆的图像。

此外，艺术公司Spawning AI创建了一个名为「Have I Been Trained」的网站（https://haveibeentrained.com），以帮助用户确定他们的照片或作品是否被用于人工智能训练。

OpenAI试图通过减少数据重复来解决隐私问题。

此外，微软和亚马逊等公司已经禁止员工与ChatGPT共享敏感数据，以防止员工泄露机密，因为这些信息可用于未来版本的ChatGPT的训练。

在学术层面，Somepalli等人研究了图像检索框架来识别内容重复，Dockhorn等人也提出了差分隐私扩散模型来保证生成模型的隐私。

偏见、毒性、错误信息

AIGC 模型的训练数据来自真实世界，然而这些数据可能无意中强化有害的刻板印象，排斥或边缘化某些群体，并包含有毒的数据源，这可能会煽动仇恨或暴力并冒犯个人 [Weidinger et al., 2021]。

在这些有问题的数据集上进行训练或微调的模型可能会继承有害的刻板印象、社会偏见和毒性，甚至产生错误信息，从而导致不公平的歧视和对某些社会群体的伤害。

例如，Stable Diffusion v1 模型主要在 LAION-2B 数据集上进行训练，该数据集仅包含带有英文描述的图像。因此，该模型偏向于白人和西方文化，其他语言的提示可能无法充分体现。

虽然 Stable Diffusion 模型的后续版本在 LAION 数据集的过滤版本上进行了微调，但偏见问题仍然存在。同样，DALLA·E, DALLA·E 2和 Imagen也表现出社会偏见和对少数群体的负面刻板印象。

此外，即使在生成非人类图像时，Imagen 也被证明存在社会和文化偏见。由于这些问题，谷歌决定不向公众提供Imagen。

为了说明 AIGC 模型固有的偏见，我们对 Stable Diffusion v2.1 进行了测试，使用「草原上奔跑的三名工程师」这个提示生成的图片全部为男性，并且都不属于被忽视的少数民族，这说明生成的图片缺乏多样性。

此外，AIGC模型还可能会产生错误的信息。例如，GPT及其衍生产品生成的内容可能看似准确且权威，但可能包含完全错误的信息。

因此，它可能在一些领域（比如学校、律法、医疗、天气预报）中提供误导的信息。例如，在医疗领域，ChatGPT提供的有关医疗剂量的答案可能不准确或不完整，这可能会危及生命。在交通领域，如果司机都遵守ChatGPT给出的错误的交通规则，可能会导致事故甚至死亡。

针对存在问题的数据和模型，人们已经做出了许多防御措施。

OpenAI通过精细过滤原始训练数据集，并删除了DALLA·E 2训练数据中的任何暴力或色情内容，然而，过滤可能会在训练数据中引入偏见，然后这些偏见会传播到下游模型。

为了解决这个问题，OpenAI开发了预训练技术来减轻由过滤器引起的偏见。此外，为确保AIGC模型能够及时反映社会现状，研究人员必须定期更新模型使用的数据集，将有助于防止信息滞后而带来的负面影响。

值得注意的是，尽管源数据中的偏见和刻板印象可以减少，但它们仍然可能在AIGC模型的训练和开发过程中传播甚至加剧。因此，在模型训练和开发的整个生命周期中，评估偏见、毒性和错误信息的存在至关重要，而不仅仅停留在数据源级别。

知识产权 (IP)

随着AIGC的迅速发展和广泛应用，AIGC的版权问题变得尤为重要。

2022年11月，Matthew Butterick对微软子公司GitHub提起了一起集体诉讼，指控其产品代码生成服务Copilot侵犯了版权法。对于文本到图像模型，一些生成模型被指控侵犯了艺术家的作品原创权。

[Somepalli et al., 2022]表明，Stable Diffusion生成的图片可能是从训练数据中复制而来。虽然Stable Diffusion否认对生成图像拥有任何所有权，并允许用户在图像内容合法且无害的情况下自由使用它们，但这种自由仍然引发了有关版权的激烈争议。

像Stable Diffusion这样的生成模型是在未经知识产权持有人授权的情况下，对来自互联网的大规模图像进行训练的，因此，一些人认为这侵犯了他们的权益。

为了解决知识产权问题，许多AIGC公司已经采取了行动。

例如，Midjourney已经在其服务条款中加入了DMCA删除政策，允许艺术家在怀疑侵犯版权时请求将他们的作品从数据集中删除。

同样，Stability AI计划为艺术家提供一种选项，即将自己的作品从Stable Diffusion未来版本的训练集中排除。此外，文本水印 [He et al., 2022a; He et al., 2022b] 也可以用于识别这些 AIGC 工具是否未经许可使用其他来源的样本。

例如，Stable Diffusion 生成了带有 Getty Images 水印的图像 [Vincent, 2023]。

OpenAI 正在开发水印技术去识别由 GPT 模型生成的文本，教育工作者可以使用该工具来检测作业是否存在剽窃行为。谷歌也已经为其发布的图像应用了 Parti 水印。除了水印之外，OpenAI 最近还发布了一个分类器，用于区分人工智能生成的文本和人类编写的文本。

结语

尽管 AIGC 目前仍处于起步阶段，但其正在迅速扩张，并将在可预见的未来保持活跃。

为了让用户和公司充分了解这些风险并采取适当的措施来缓解这些威胁，我们在本文中总结了 AIGC 模型中当前和潜在的风险。

如果不能全面了解这些潜在风险并采取适当的风险防御措施和安全保障，AIGC 的发展可能面临重大挑战和监管障碍。因此，我们需要更广泛的社区参与为负责任的 AIGC 做出贡献。

最后的最后，感谢SonyAI和BAAI！

以上是游走在法律边缘的「图像生成技术」：这篇论文教你避免成「被告」的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

Java教程

1663

CakePHP 教程

1420

Laravel 教程

1313

PHP教程

1266

C# 教程

1239

显示更多

Related knowledge

全球币圈十大交易所有哪些排名前十的货币交易平台2025 Apr 28, 2025 pm 08:12 PM

2025年全球十大加密货币交易所包括Binance、OKX、Gate.io、Coinbase、Kraken、Huobi、Bitfinex、KuCoin、Bittrex和Poloniex，均以高交易量和安全性着称。

比特币值多少美金 Apr 28, 2025 pm 07:42 PM

比特币的价格在20,000到30,000美元之间。1. 比特币自2009年以来价格波动剧烈，2017年达到近20,000美元，2021年达到近60,000美元。2. 价格受市场需求、供应量、宏观经济环境等因素影响。3. 通过交易所、移动应用和网站可获取实时价格。4. 比特币价格波动性大，受市场情绪和外部因素驱动。5. 与传统金融市场有一定关系，受全球股市、美元强弱等影响。6. 长期趋势看涨，但需谨慎评估风险。

排名靠前的货币交易平台有哪些最新虚拟币交易所排名榜前10 Apr 28, 2025 pm 08:06 PM

目前排名前十的虚拟币交易所：1.币安，2. OKX，3. Gate.io，4。币库，5。海妖，6。火币全球站，7.拜比特，8.库币，9.比特币，10。比特戳。

全球币圈十大交易所有哪些排名前十的货币交易平台最新版 Apr 28, 2025 pm 08:09 PM

全球十大加密货币交易平台包括Binance、OKX、Gate.io、Coinbase、Kraken、Huobi Global、Bitfinex、Bittrex、KuCoin和Poloniex，均提供多种交易方式和强大的安全措施。

解密Gate.io战略升级：MeMebox 2.0如何重新定义加密资产管理？ Apr 28, 2025 pm 03:33 PM

MeMebox 2.0通过创新架构和性能突破重新定义了加密资产管理。1) 它解决了资产孤岛、收益衰减和安全与便利悖论三大痛点。2) 通过智能资产枢纽、动态风险管理和收益增强引擎，提升了跨链转账速度、平均收益率和安全事件响应速度。3) 为用户提供资产可视化、策略自动化和治理一体化，实现了用户价值重构。4) 通过生态协同和合规化创新，增强了平台的整体效能。5) 未来将推出智能合约保险池、预测市场集成和AI驱动资产配置，继续引领行业发展。

排名前十的虚拟币交易app有哪最新数字货币交易所排行榜 Apr 28, 2025 pm 08:03 PM

Binance、OKX、gate.io等十大数字货币交易所完善系统、高效多元化交易和严密安全措施严重推崇。

C 中的chrono库如何使用？ Apr 28, 2025 pm 10:18 PM

使用C 中的chrono库可以让你更加精确地控制时间和时间间隔，让我们来探讨一下这个库的魅力所在吧。C 的chrono库是标准库的一部分，它提供了一种现代化的方式来处理时间和时间间隔。对于那些曾经饱受time.h和ctime折磨的程序员来说，chrono无疑是一个福音。它不仅提高了代码的可读性和可维护性，还提供了更高的精度和灵活性。让我们从基础开始，chrono库主要包括以下几个关键组件：std::chrono::system_clock：表示系统时钟，用于获取当前时间。std::chron

怎样在C 中处理高DPI显示？ Apr 28, 2025 pm 09:57 PM

在C 中处理高DPI显示可以通过以下步骤实现：1)理解DPI和缩放，使用操作系统API获取DPI信息并调整图形输出；2)处理跨平台兼容性，使用如SDL或Qt的跨平台图形库；3)进行性能优化，通过缓存、硬件加速和动态调整细节级别来提升性能；4)解决常见问题，如模糊文本和界面元素过小，通过正确应用DPI缩放来解决。

See all articles

游走在法律边缘的「图像生成技术」：这篇论文教你避免成「被告」

隐私

偏见、毒性、错误信息

知识产权 (IP)

结语

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题