AI训练数据的版权保护:公地的悲剧还是合作的繁荣?

448次阅读

共计 2908 个字符，预计需要花费 8 分钟才能阅读完成。

Shapley值是博弈论中的一个解决方案概念，它提供了一种根据每个玩家组合作为联盟的效用分配收益的原则性方法。它是由诺贝尔奖获得者Lloyd Shapley (此后简称为Shapley) 提出的。

Shapley （1923-2016）是美国籍数学家和经济学家，并且由于对稳定分配理论和市场设计的实践做出突出贡献，而获得了2012年的经济学诺贝尔奖 [3]。Shapley是博弈论领域的传奇，并且在其博士工作和博士论文中引入了Shapley值。

美国经济学会称Shapley是「博弈论和经济学理论的巨人」。

Shapley值的具体计算如下：

参与者i的Shapley值计算为其在所有可能联盟中边际贡献的加权平均：

Shapley值是唯一满足几个重要经济属性的支付规则，并在机器学习模型的数据估值中获得了普及。利用Shapley值，该文章提出使用SRS（Shapley Royalty Share）来计算版权分配。

SRS定义如下：

这里，

SRS提供了一种经济学方法解决生成式AI环境中的版权和收益分配问题，支持公正的数据使用和创新激励。

该文章用一个简单的例子来解释Shapley值的计算过程。在这个例子中，有三个数据所有者（A, B, C），他们共同训练一个模型，使用模型对某生成内容的log-likelihood作为效用函数。假设使用不同的数据组合训练后的模型的log-likelihood如下：

可以根据以下量来计算A的Shapley值：

根据Shapley值公式，可以得到

计算考虑

为了减轻这种计算负担，可以采用两种方法：

实验结果

该文章通过实验评估了所提出框架在分配AI生成内容版税方面的有效性，重点关注创意艺术和图像领域的标志设计。

评估使用了公开可获取的数据集：WikiArt和FlickrLogo-27。

评估SRS的有效性

对于WikiArt数据集，该文章选取了四位著名艺术家的四个不相交的画作子集。一个最初在更广泛的训练图像集（不包括这四位艺术家的作品）上训练的模型，作为基础模型。通过在选定艺术家的四组画作的各种组合上进一步微调基础模型，计算SRS。

结果表明，当

的风格与训练数据源的风格非常接近时，SRS值最高。这一关系凸显了SRS框架准确归因于AI生成图像创作贡献的能力。

评估SRS对于混合风格的生成图像的归因能力

在WikiArt数据集上，该文章探讨了针对要求从多个数据源生成内容的提示的SRS分布。显著地，提示要求生成模型融合多位艺术家的风格。SRS有效地识别并奖励了融入生成艺术作品的数据源的贡献，展示了该框架在辨识和评价多样化数据源输入以生成内容的能力。

讨论与深入研究

该文章已经通过采用合作博弈理论中的权限结构概念来初步适应这种情况。

在这种情况下，半值（一种放弃效率公理的Shapley值推广）可能提供了一个可行的替代方案。未来的工作可以旨在建立公理化的理由，以识别此背景下用于版税分配的最合适的解决方案概念。

从实用性的角度讲，Shapley值最大的不足之处在于计算开销。尽管Monte Carlo方法可以加速计算过程，但仍需要大量的模型重复训练。这种计算需求在处理大型数据集和复杂模型时变得尤其突出，可能导致计算资源的极大消耗和时间的延长。

未来的工作可以着重于解决这一问题，通过开发更高效的算法或启用新的方法来减少计算开销，从而使Shapley值在实际应用中更加可行和高效。

作者介绍：

1. Jiachen Wang （王嘉宸）：现为普林斯顿大学电子工程系博士生，主攻人工智能数据估值（data valuation）等方向。

2. Zhun Deng (邓准)：现为哥伦比亚大学计算机系博后，博后导师为 Richard Zemel。此前为哈佛大学计算机系博士生，师从Cynthia Dwork，主攻机器学习可靠性和社会责任性等方向。

3. Hiroaki Chiba-Okabe：现为宾夕法尼亚大学应用数学和计算科学博士生，主攻方向是人工智能引发的道德问题和社会问题。

4. Boaz Barak: 哈佛大学正教授，主攻方向理论计算机和机器学习方向。同时在OpenAI 任职。

5. Weijie Su (苏炜杰)：现为宾夕法尼亚大学沃顿商学院、计算机系和数学系副教授，研究方向包括人工智能的理论基础等方向。

参考链接：

[1]

[2]

[3]

正文完

人工智能安全气囊

发表至： AI智慧秀

2024-06-04

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请注明出处。

Llama3训练每3小时崩一次？豆包大模型、港大团队为脆皮万卡训练提效

CAIL 2024 | 中国法律智能技术评测正式开启，诚邀您参与！

OpenAI今天Open了一下：开源多智能体框架Swarm

AI唱歌 – 黄家驹 cover 沉默是金- 声音模型下载

单个4090可推理，2000亿稀疏大模型「天工MoE」开源

AI训练数据的版权保护:公地的悲剧还是合作的繁荣?

ETH的新强化学习方法使微型机器人在血管里不再迷路

命中率比前SOTA高100倍，Chai-2可在24孔板中实现零样本抗体发现

大幅降低成本，耶鲁大学提出MBGF-Net，预测分子基态、激发态特性

如何对齐DNN与人类看世界的方式？像素还是概念？

提升蛋白质折叠模式覆盖度，清华等使用感知潜在编码改进扩散模型