AI数据训练与内容生成的著作权分析

发布时间:2026-05-25     稿件来源:《群众·决策资讯》     作者:徐 新 邵 研    

当前,人工智能(AI)技术的迅猛发展,尤其是生成式AI技术的加速迭代,深刻重构了内容创作、传播与利用的全链条生态,传统著作权法体系正在面临前所未有的挑战。从大模型训练的数据使用,到生成内容的作品定性与权利归属,涉及权利保护、产业创新与公共利益的多重衡量,不仅事关知识产权制度的时代适配性,更深度影响人工智能产业的发展走向与全球竞争格局,成为数字时代法治建设与技术治理的关键命题。

输入端:AI训练数据是否构成合理使用

训练数据是生成式AI核心燃料,无论是生成文本的大语言模型还是生成图像或视频的扩散模型,均需要学习千万甚至亿万量级的文本、图像或音频,才能生成有意义的输出。因此,AI模型的训练必然会大规模复制受著作权保护的作品,传统一对一授权模式因作品的海量性、分散性和权属不明而失灵。合理使用制度作为著作权法中的一项重要内容,其核心目的是在保护创作者权益与促进知识传播和技术创新之间实现一定的平衡。判断AI训练内容能够构成合理使用,本质是对作品权利保护和促进创新两项法益进行利益衡量。

从域外的实践来看,美国和欧盟采取了两条不同的道路。美国倾向于技术创新优先,美国版权法第107条规定,合理使用的判断需考量以下四个因素:使用的目的与性质、作品性质、使用数量与比例、对原作品潜在市场的影响。在此框架下,以司法判例形式对AI训练的合理使用采取相对宽松的审查标准。在2025Bartz v. Anthropic案中,法院认为AI训练的本质是转换性使用,其目的不是复制或传播原作品,而是学习原作品的语言模式、知识结构和创作风格并生成新的内容,因此,Claude模型训练时未经授权使用了700万册书籍构成合理使用,不过非法下载书籍获取数据的行为仍构成侵权。但是,美国法院对AI训练的合理使用问题并非一律持宽松态度。2025Thomson Reuters v. Ross Intelligence案中,法院认为,被告使用原告的法律数据库训练AI模型,不构成合理使用,因为其开发的AI产品与原作品功能同质(均提供法律检索服务),构成市场替代。该案进一步明确了转换性使用的边界,在AI产品与原作品构成直接竞争关系时,大幅限缩合理使用的抗辩空间。

欧盟倾向于创作者权利优先,严格限制AI训练的大规模复制。2019年的《数字单一市场版权指令》对于文本与数据挖掘(TDM)设置了两种例外情形:科研性例外(第3条)和一般性例外(第4条)。但是,一般性例外附有严格的限制条件,根据版权指令第4条规定,如果权利人通过机器可读方式明确保留其文本与数据挖掘权利,该例外不再适用,商业主体须另行获得授权。2024年的《人工智能法案》进一步要求AI模型提供者公开训练数据来源摘要并配合权利人事后审查,否则其模型将被禁止在欧盟境内销售或使用。2025年德国音乐演出和作品复制权协会(GEMA)诉美国OpenAI公司著作权侵权案一审判决认为,OpenAI在训练ChatGPT时未经授权使用了GEMA声明禁止文本数据挖掘的9首歌曲歌词,构成著作权侵权,合理使用抗辩不能成立。

我国著作权法第24条列举了12种合理使用的具体情形,均集中在少量、非商业性的使用领域,而AI训练的核心是大规模、商业性的使用,难以直接适用24条的具体情形。从司法实践来看,四位插画师起诉小红书旗下TrikAI软件未经授权使用其美术作品训练AI模型案、爱奇艺起诉MiniMax公司的AI产品在未经授权的情况下使用其视听作品进行模型训练等案件已进入司法视域,但相关裁判规则仍未形成。有观点认为,对于大模型的数据输入和训练行为的侵权认定,宜采取相对宽松包容的认定标准;也有观点认为,著作权法的基本理论难以为未经许可建立容纳海量作品的训练语料库提供正当性依据;还有观点建议引入著作权补偿金制度作为折中方案。尽管尚存争议,但判断AI训练内容能否构成合理使用,不能突破《伯尔尼公约》第9条确立的三步检验法,这是公约成员国判断合理使用的强制标准,即任何对复制权的限制或例外,必须满足三个条件:仅适用于特定特殊情况;不得与作品的正常利用相冲突;不得不合理损害权利人的合法利益。此外,在具体案件中,还要综合考量AI训练是否具有商业性、训练结果是否会对原作品构成市场替代等多重因素。

输出端:AI生成内容能否构成作品

2022年《纽约客》封面采用由MidJourney生成的《太空歌剧院》开始,AI生成内容(AIGC)能否构成作品便开始引发广泛讨论。扬州市法院审理的蛇形玩偶案中,原告利用人工智能软件生成蛇形玩偶图片并据此制作成实物玩偶,法院认为,原告在利用人工智能软件创作的过程中,输入的提示词过于简单,生成过程对AI模型的随机性依赖较强,后续玩偶制作也仅是对平面图片的简单复制,并未进一步体现足以构成作品的独创性智力劳动和编排,因此案涉蛇形图片和玩偶均不构成著作权法意义上的作品。2025年美国版权局发布的《版权和人工智能:可版权性》报告指出,版权不延伸至纯AI生成内容,或人类对表达元素控制不足的内容。目前普遍认为,不能体现实质性人类智力贡献的纯粹AIGC不具有可版权性。

那么,从肯定性角度而言,构成作品的AIGC需要具备哪些核心要件?关于这一问题,目前还存在争议。否定说观点认为,提示词相对于AIGC,属于思想而非表达,对于同一个思想,不同的AI可以生成无数种不同的表达。美国版权局拒绝对《太空歌剧院》予以版权登记的理由与上述观点类似,即反复修改提示词与输入单个提示词没有本质区别,使用者并未改变对生成过程的控制强度。肯定说观点认为,使用者通过多轮提示词反复修改的过程可以实质性影响表达要素,体现出对AIGC的独创性贡献。北京互联网法院审理的春风送来了温柔案是我国首例认定AIGC构成作品的案件,法院认为,原告使用绘画大模型,通过调整、对比数十组不同风格的提示词,并对模型迭代步数、视觉渲染随机种子等核心生成参数进行多次调试,实现了具有独特性的表达效果,故最终生成的《春风送来了温柔》构成美术作品。江苏常熟市法院审理的伴心案进一步明确,案涉《伴心》图片的生成过程中,原告不仅对创作主题、视觉元素、呈现风格进行了前期构思,还通过反复调整提示词组合、修正生成参数、多版本筛选优化等具体行为,将抽象构思转化为了具有审美意义的具体视觉表达,整个创作流程,与传统美术创作的构思、落笔、修改、定稿环节无本质差异,体现了使用者独特的个性化选择与智力投入。从上述案例来看,我国司法实践中对于AIGC的可版权性问题倾向于关注使用者使用大模型的过程是否通过个性化构思以及提示词或参数调整等行为体现使用者的创作意图和独创性表达。

此外,在举证责任分配上,使用者应当提交完整、连贯的AI创作过程原始记录等证据,以证明其创作过程的真实性和独创性投入。考虑到AI创作的非唯一性、易修改性等特点,在使用者无法提交创作过程相关证据的情况下,其难以证明对AIGC进行了充分的智力投入,故相关AIGC难以被认定构成著作权法意义上的作品。

(作者单位:南京市中级人民法院知识产权法庭)

责任编辑:于璐 
【加入收藏】    【打印此文】     【关闭】
分享到:
无标题文档