Ai版权保护设置,ai版权_币百科_智行理财网

Ai版权保护设置,ai版权

小智 0

欧易okx交易所下载

欧易交易所又称欧易OKX,是世界领先的数字资产交易所,主要面向全球用户提供比特币、莱特币、以太币等数字资产的现货和衍生品交易服务,通过使用区块链技术为全球交易者提供高级金融服务。

APP下载   官网注册

作者:朱腾讯研究院高级研究员;腾讯研究院助理研究员张逸群。

图片来源:由无界版图AI工具生成

ChatGPT的火带来了"强势出圈"AIGC技术和相关应用。除了感觉AI'的超强内容生成和输出能力,各行各业的人也开始思考AIGC可能产生的潜在风险。2023年1月23日三名美国漫画家在加州北区法院对包括StabilityAI在内的三家AIGC商业应用公司提起集体诉讼。指控StabilityAI开发的Stability扩散模型和三被告基于上述模型开发的付费AI图像生成工具构成著作权侵权。

是唯一的。2月15日,《华尔街日报》记者弗朗西斯科马可尼也公开指责。,OpenAI在未经授权的情况下,大量使用路透社、纽约时报、卫报、BBC等国外主流媒体的文章训练聊天GPT模型,但从未支付任何费用。[1]

AIGC技术开发和应用中的知识产权尤其是版权侵权问题之所以备受关注,是因为AIGC模型的形成和完善依赖于大量的数据训练,而用于训练的数据往往含有受版权法保护的内容。

AIGC如何使用版权作品进行数据训练并输出结果?在这个过程中有哪些侵犯版权的风险?如何有效应对AIGC版权利用带来的侵权风险?这张纸需要"稳定扩散情况"举个例子。结合AIGC内容生产模式的技术原理,对上述问题进行了探讨。

(左:画家艾琳汉森2021年创作的作品;右图:用"艾琳汉森的风格作为稳定扩散中的一个提示)[2]

世界';中国首例"稳定扩散”AIGC模型

作为世界';国内首个知名的AIGC商业应用领域、算法模型和训练数据版权侵权案"稳定扩散情况"自起诉书公布以来引起了社会各界的关注和讨论,其最终判决也将对AIGC工业和技术的发展产生决定性的影响。回到案件本身,我们发现:第一,从核心争议来看,目前,国内外对AIGC获取并使用版权作品进行算法训练是否合法存在诸多争议,在立法和司法层面也没有明确共识;第二,从涉及的技术原理来说。稳定扩散模型训练过程中版权作品的使用方式和使用行为的版权定性仍需分析和澄清。

本案中,原告未经权利人许可,围绕安定艾公司。,以"训练图像"稳定扩散到发射电荷。。原告将稳定扩散模型定义为"一个复杂的拼贴工具)——"在将大量有版权的图像存储并合并到训练图像中之后.一';新';图像完全基于训练图像生成"。。被告"从使用版权图像中获取商业利益和丰厚利润",而数以百万计的权利人遭受损失,因为所产生的"新"影像占据原创作品交易市场。[3]

技术原理:AIGC模型涉及哪些作品使用行为?

从表面上看,不同AIGC模型产生的内容有不同的形式,涵盖文本、图像、语音、视频等。。而各种AIGC模型都是利用已有的作品来训练模型,生成最终结果,但有相似之处:将数据库中的作品数据进行一定程度的转换后输入到AIGC模型中,利用AIGC模型的自主学习能力从中提取有价值的内容。然后根据输入的指令,生成并输出匹配的学习结果。以有争议的稳定扩散模型为例,该模型以包含数亿的图像数据库——LAION-5B[4]为训练数据源。原告主张的侵权作品也包括在内。

简单来说,稳定扩散模型对版权作品的使用存在两个阶段。一、人工智能模型的训练阶段。稳定扩散使用版权作品来训练内部组件"图像编码器"(U-Net模式),辅以"剪辑文本编码器模型",最后只需要输入一段描述性的文字。,可以生成相应的图像内容。二、AI模型的应用阶段。经过充分的训练,稳定扩散可以根据用户给出的文字输出最终的图像。但是这些生成的图像内容,很大概率包含并展现了版权作品的元素和特征作为训练数据。

(稳定扩散的内部结构图)[5]

AIGC模式的培训阶段有哪些侵犯版权的风险?

在模型训练阶段,稳定扩散会将版权作品和相应的文本数据转化为"潜在的表现"相同的"潜在空间"。用语言稳定扩散模型以从数据库中下载的作品为输入对象,对其添加噪声并编码(压缩)使作品进入"图像信息空间"。版权作品进入这个领域,将与由"剪辑文本编码器",它们之间信息融合的结果是——"潜在表达"。

简单说明稳定扩散模型的训练之所以会涉及到添加和去除噪声的过程。,因为:与人类绘画不同,出发点是"从零开始",即在白纸上添加线条颜色,最后形成图像;稳定扩散模型的画法是"从零开始"即从充满杂乱噪声的底板中去除无关噪声的过程(类似于"雪花屏"直到最终的目标图像被保留。

若将训练前数据准备过程也包括在模型训练阶段。那么版权作品稳定扩散模型的主要使用行为是"复制"和"适应"。相关行为主要体现在两步。

一个是复制训练数据。。由于LAION-5B数据库本身不提供版权作品的副本,只提供版权作品在线URL列表的索引,因此在训练稳定扩散模型之前,需要从相应的网络地址下载并存储作品作为训练数据。形成版权作品的副本。

其次,是对作品进行编码并输入到"图像信息空间"。与直接下载和存储作品相比,该过程添加了噪声并对作品进行编码(压缩)。受版权保护的原创作品在"图像信息空间",但仍保留了作品内容最关键、最本质的特征,应认定为著作权法意义上的改编。

AIGC模式输出阶段有哪些版权侵权风险?

在内容输出阶段,为了通过稳定扩散模型生成最终图像,必须首先将用户输入的文本与"潜在表现形式""图像信息空间"通过"剪辑文本编码器"。然后由"u网络模块"由噪声输出训练,预测在这个潜在表达式中添加的噪声。第三,由"u网络模块"从文本的潜在表达中减去,新的图像内容最终通过"去噪"根据用户的几次';s设定。在这个阶段,

,需要结合最终生成的内容来判断原创版权作品的使用情况。如果去噪和解码后生成的内容是"基本相似"对原作在表达上来说,它属于"复制权";如果不构成"实质相似性"而是在保留作品基本表达的前提下形成新的表达,可能构成对"改编权"原作的一部分。

AIGC模型在整体意义上放松了讨论对象谷歌研究员凯文墨菲(KevinP.Murphy)指出,机器学习模型有时会重构输入数据的特征,而不是反映这些数据的潜在趋势。这种模型可以看作是生成作品的概率模型。它属于广义的"复制"或者"衍生作品"并且有侵犯"复制权"和"改编权"。[6]

另外,根据稳定扩散官网的声明,稳定扩散产生的新内容将在互联网环境中以"CC01.0通用协议",也就是"完全开源"。[7]从著作权法的角度来看,根据上述传播生成内容的方式有交互或非交互。即公众是否可以在他们选择的时间和地点获得,也可能属于"信息网络传播权"和"转播权"(网络直播)分别。

AIGC版权侵权是小概率事件?

有人认为AIGC侵犯了版权';的输出内容是一个极不可能的事件,因为它看起来太"危言耸听"要担心生成的结果类似于几亿训练数据前的一个或几个作品。。例如,联合王国苏塞克斯大学的安德烈斯瓜达穆兹教授指出"经过训练的机器模型通常会产生不同于原始图像的新图像"。[8]

然而,在最新的实验中以AI扩散生成模型如稳定扩散为研究对象。马里兰大学和纽约大学的联合研究团队指出,稳定扩散模型生成的内容与数据集作品相似度超过50%的可能性达到1.88%。鉴于庞大的用户使用量,不可能忽视侵权的存在。。

研究人员表示,由于本次实验中对复制(版权作品)的检索仅覆盖了训练数据集中的1200万张图片(占整个训练数据集的一小部分),且有很大概率存在检索方法无法识别的复制内容。这个实验的结果实际上低估了稳定扩散的侵权拷贝。[9]由此可见,AIGC模式作品的侵权风险不容各界忽视。

AIGC能构成一个"合理使用"豁免?美国的

虽然合理使用的标准比其他国家更灵活,并倾向于鼓励作品的重用,但对于在训练数据中使用作品,很难说AIGC模式是完全合法的。在稳定扩散案之后,许多美国学者和律师认为与"四要素分析法"在美国版权法[10]中,很难将AIGC作品的使用纳入合理使用的范畴。一方面,稳定扩散产生的内容大多没有在原作的基础上增加新的表达方式,产生与原作不同的新功能或价值,不符合"转换使用"。另一方面在版权作品授权市场已经非常成熟的背景下,AIGC产生的内容很大程度上挤压和替代了二手作品的原有市场。在中国,现行的《著作权法》关于合理使用的规定。适用于AIGC数据训练的情况主要有三种:个人使用、适当引用和科学研究。[11]对"个人使用",但目前的AIGC模式最终是基于为未指定的主体提供商业服务。很难与之契合;"的适用前提适当的引用"是"介绍并评论作品"或者"解释一个问题",而且显然很难对AIGC模型在商业化领域的应用进行分类。作品的使用由"科研"仅限于"学校课堂教学或科学研究"同时也强调只能少量复制,AIGC模式大量复制利用作品的现状无法满足这一要求。

是传统的"授权使用模式"适用?

国内学者形象地对比了AIGC模型和海量训练数据的关系。,与"儿童"和"母乳>;[12]人工智能技术的发展和推广必须建立在庞大的数据供给基础上,所提供的数据必然包含受版权保护的作品。如果严格按照现在的《著作权法》那么似乎只有传统的"许可模式"被遗留在人工智能合法获取和使用作品的方式中。然而,对于AIGC内容生产,既有现有的许可模式,也有天然的应用困难。一方面,许可模式可能会导致"寒蝉效应"AIGC研发中心。面对版权作品的高额授权费,AIGC研发公司d科目往往面临两种选择:一是放弃AIGC领域,转向其他行业;第二,坚持AIGC领域。,而是使用免费数据进行训练。但前者无疑阻碍了人工智能技术和产业的发展趋势,违背了科技进步的规律;后者可能会导致不良后果,例如由于训练数据不足而导致的算法模型偏差。另一方面,有一个问题是授权模式在实践层面很难落地。AIGC模型所需的训练数据包含大量不同来源、不同所有权的作品。如果采用事先授权,首先,需要从海量数据中准确分离提取出受保护的作品;其次,找到每部版权作品对应的权利人与其协商授权,支付不同价格的授权费。以上过程漫长且复杂,实施难度较大。

另外,AIGC数据培训对作品数量的需求远远超出了著作权集体管理组织的规制范围,集体管理组织制度也面临适用"失败"。不可否认的目前稳定扩散等AIGC模型产生的结果有被侵权的风险,但可以预期,随着AI算法的不断完善和优化,以及训练数据的倍数增长,单个版权作品的价值将"稀释"在这个过程中。

生成的结果被侵权的概率也将进一步降低。

国内思考:更加重视AI模型训练中的版权问题

虽然没有像"聊天GPT";和"稳定扩散"目前在中国,AIGC领域的侵权诉讼也已经出现。。备受关注的两个案例是"电影诉百度案"在2018年和"腾讯诉英讯案"2019年。然而,上述案例更多地与"小模型时代"以及特定领域(法律、金融和经济)内容的生成和输出对模型训练数据的需求仍然很低。特定的专业数据库和公共信息可以满足,这并不完全等同于当前AIGC中多类型多领域海量数据的训练需求"大模型时代"。

";电影诉百度案"牵涉基于"科威高级数据库"具有合法授权;腾讯诉英讯案涉及的内容生成和输出依据的事实信息如"股市历史和实时数据"不受版权法保护。各界的关注,而且还停留在AIGC输出内容"是否构成作品"和"权利属于哪里"。然而,随着AIGC技术在中国的应用和发展,AIGC模型训练和建设中的版权保护也需要引起重视。

国内重点科技企业和科研机构已完成AIGC领域的技术和产业布局。在全球超千亿参数模型中,中国企业或机构占1/3。比如前几年国内推出的百度文心模式和腾讯混合模式。。中国人工智能发展的海量数据、丰富场景和用户基础,是AIGC在"大模型时代"在未来。

如何破局:AIGC内容生产模式版权治理探索

思维(1):能不能new"合理使用"要添加的情况?

在规则层面,2018年日本修订《著作权法》增加"灵活权利限制条款",为AIGC科技抓取和使用版权作品创造了条件。新条款规定如果互联网公司使用作品"不侵犯著作权人的利益"或者"轻微损坏所有权",可以不经权利人许可直接使用。欧盟于2019年正式采用《单一数字市场版权指令》。,创造了文本和数据挖掘(TDM)的例外,以支持数据科学和人工智能的发展。但是,权利人明确保留以适当方式使用作品或者其他物品的,不在此限。

日本和欧盟';美国在这一领域的做法为当前AIGC版权侵权治理提供了一条可借鉴的路径。总的来说,日本倾向于从结果中判断AIGC技术使用版权作品是否合法。最终还是要静下心来具体案例具体分析;而欧盟则主张先于著作权人保护选择权,以避免侵权,强调数据的开发利用不得侵害权利人的利益。

思考(2):能否有效"工作退出机制"成立?

在实践层面上,据报道,安定AI公司最近表示将修改"没有数据库入口或出口"在《用户协议》。,允许权利人从稳定扩散3.0后续版本的训练数据集中删除自己的作品。版权所有者可以在网站上找到自己的作品"我受过训练吗"并选择退出数据训练集。。[13]总之,在受版权保护的作品被纳入AIGC模型训练数据库之前,给版权人一定的时间自由选择是否从训练数据库中删除其受版权保护的作品。著作权人在规定期限内提出异议的,应当尊重其意愿。,删除相关作品;如果合作方没有提出异议,默认允许该作品用于数据训练。

需要指出的是,著作权人在将著作权作品上传到网络空间时,明确声明禁止使用该作品的,也应视为"提出异议"。。在退出机制的具体构建中,著作权人';美国的知情权和选择权应该得到尽可能的保障。在AIGC模型训练之前,我们应该通过各种渠道及时发布其训练数据库的信息,并在技术上为版权人提供便捷的作品查询和检索机制。确保有可靠渠道了解版权作品是否被纳入相关数据库。

思考(三):能否优化AIGC模式的版权保护机制?

在技术层面上,优化改进模型设计。这也是AIGC规避版权侵权风险的重要途径。来自伦敦玛丽女王大学的研究团队指出,AIGC模型在创新能力方面存在固有的局限性,无法以创造性的方式保持与训练数据的差异。为了解决这些限制通过优化和重写AIGC模型,它可以主动偏离训练数据。[14]这种"偏差"作用于生成的结果,可以在一定程度上避免对原版权作品的侵犯。目前为

鉴于AIGC产生的内容是否构成版权作品需要保护,目前还在讨论中,没有定论。有必要通过外部检测技术或改进AIGC模型的标记机制对AIGC的内容进行标记,并与自然人创作的内容进行区分。,预防未来可能出现的版权法律风险,并加以应对。2023年2月1日,OpenAI宣布推出一款名为"人工智能文本分类器"来帮助区分文字是人类写的还是人工智能生成的。。虽然这项技术的准确率还有待提高,但可以通过机器学习自动优化,这代表了一个发展方向"技术自主"。

参考来源:

[1。

[2

[3]SeetheU.S.DistrictCourtfortheNorthernDistrictofSanFrancisco,California,pp.3-4.

[4]需要指出的是,LAION-5B数据库不直接提供图像数据,只提供图像的在线URL列表的索引和对应的文字。为了获得图像数据和文本之间的对应关系,LAION-5B将首先下载图像。

相关内容

Ai版权保护设置,ai版权文档下载: PDF DOC TXT