Adobe被诉用盗版书籍训练AI模型,SlimLM陷版权风波
Adobe被诉用盗版书籍训练AI模型,SlimLM陷版权风波
——一场关乎AI伦理、数据主权与创作尊严的行业警钟
一、事件始末:一封来自作家的法律“檄文”
2025年12月18日,美国俄勒冈州非虚构作家伊丽莎白·莱昂(Elizabeth Lyon)在加州北区联邦地方法院正式提起一项拟议集体诉讼,将全球创意软件巨头Adobe推上被告席。起诉书直指其最新发布的轻量级语言模型系列——SlimLM,指控其训练过程系统性侵犯了数以万计作者的著作权。
莱昂并非普通原告:她长期深耕写作教育领域,出版多部广受作家群体信赖的写作指导类图书,如《非虚构写作的结构艺术》《出版前的最后一公里》等。她在诉状中明确指出,自己至少三部已出版作品的完整文本或高保真片段,被未经授权收录进SlimLM的预训练数据源,并经模型内化后用于生成式文档辅助功能——这意味着,用户在使用Adobe移动端App中的“智能润色”“大纲生成”或“摘要提炼”等功能时,所依赖的底层知识,可能正源自她未授权、未署名、亦未获酬的原创内容。
这一诉讼不仅是个人维权,更是一次代表全体被隐匿使用的文字创作者发起的集体声讨。
二、技术路径拆解:从Books3到SlimLM,一条“合法外衣下的侵权链”
Adobe官方曾公开介绍,SlimLM是专为资源受限环境(如中低端智能手机、离线办公场景)设计的小型语言模型(SLM),强调低延迟、高响应、强语义理解能力,核心应用场景包括:合同条款解析、会议纪要自动结构化、学术文献要点提取、多语言文档即时改写等。
然而,其技术“洁净度”正遭遇前所未有的质疑。根据诉状披露及多方交叉验证:
- SlimLM的预训练基础为 SlimPajama-627B 数据集,由AI基础设施公司Cerebras于2023年6月发布,标榜“去重、多语言、开源可复现”;
- 但该数据集实为 RedPajama 的精简衍生版本,而RedPajama本身已被多起司法程序认定为包含高度争议的 Books3子集;
- Books3——这个自2022年起在AI圈“臭名昭著”的数据仓库,据法庭文件确认,共收录约191,000本受版权保护的电子书,来源为暗网论坛The Library Genesis(LibGen)镜像站点,其中大量作品未经出版社或作者许可即被爬取、OCR识别、格式清洗并批量注入训练管道;
- 莱昂团队通过文本指纹比对(包括段落嵌入相似度、罕见术语共现、脚注结构复现等多重验证)证实:其著作中特有的教学案例、章节编排逻辑与术语定义方式,在SlimLM的输出中呈现显著统计学复现倾向,远超随机概率阈值。
换言之,Adobe并未直接“下载盗版PDF”,却通过采纳一个已被司法实践反复标记为“高风险”的开源数据集,完成了事实上的版权规避式技术外包——这正是本案最具警示意义的法律焦点:“不知情”能否成为合规免责盾牌?
三、行业共振:不是孤例,而是浪潮——从Anthropic和解到Apple应诉
值得警惕的是,Adobe绝非首个、也不会是最后一个因训练数据“踩雷”而被告上法庭的科技巨头:
- 2025年9月,AI安全先锋公司Anthropic宣布以15亿美元(约合人民币105.77亿元)达成创纪录和解,平息作家联盟对其Claude系列模型使用Books3等非法数据集的集体诉讼。该案首次确立“大规模商用AI模型需对训练数据版权溯源担责”的司法共识;
- 2025年10月,Salesforce被作家团体起诉,指控其Einstein GPT模型在客户关系管理(CRM)场景中调用RedPajama数据生成销售话术,间接商业化利用盗版内容;
- 2025年11月,苹果公司在“Apple Intelligence”发布会后迅速陷入版权漩涡,多起诉讼援引相同证据链,直指其设备端小模型私有训练集亦含Books3成分;
- 更早之前,Meta、OpenAI、Google均已面临类似指控,部分案件进入证据开示阶段,法院正密集要求被告提交完整数据 provenance(来源谱系)审计报告。
Adobe此次被诉的特殊性在于:它是首个因“移动端轻量化模型”而非“通用大模型”卷入版权风暴的创意生产力平台。这彻底击碎了一种行业幻觉——“小模型=低风险”。事实上,SlimLM虽参数量仅数十亿,但因其高度垂直(专注文档)、高频调用(嵌入Photoshop Express、Acrobat Reader Mobile等亿级用户App),其对特定文本风格与知识结构的“记忆强度”反而更高,侵权后果更具隐蔽性与渗透性。
四、法律与伦理双重拷问:AI时代的“创作权”边界何在?
本案已超越单纯赔偿诉求,直指数字时代核心命题:
🔹 “合理使用”是否仍适用于AI训练?
美国《版权法》第107条传统上允许“批评、评论、新闻报道、教学、学术”等目的的有限引用。但法院近年判例(如Authors Guild v. Google, Andy Warhol Foundation v. Goldsmith)持续收窄解释空间。当AI模型将整本书“吞下”并重构为概率分布,是否还属“转换性使用”?莱昂方援引第九巡回法院最新指引,强调“未经许可的大规模复制+商业性部署+替代原作市场价值”,已实质性突破合理使用红线。
🔹 开源≠免责,数据集“清洁度”谁来认证?
SlimPajama虽冠以“开源”之名,但其构建过程缺乏第三方版权合规审计。当前行业普遍缺失统一的数据集“数字护照”(Digital Provenance Passport)标准。原告律师团在诉状中呼吁:立法应强制要求AI开发者公示训练数据层级谱系(Tiered Provenance Disclosure),从原始网页URL、存档哈希值,到清洗算法日志,全程可验证、可追溯。
🔹 创作者应享何种新型权利?
莱昂代表的集体主张不仅限于经济赔偿,更提出三项制度性诉求:
① 建立AI训练作品事前授权池(Opt-in Collective Licensing Pool),作者可自主选择是否加入、设定使用费率;
② 强制模型输出溯源标注机制(Attribution Watermarking),当生成内容明显承袭某部作品风格/结构时,向用户提示“此建议参考自[作者名]《书名》”;
③ 设立AI数据使用透明度年报制度,要求上市公司每年披露训练数据中受版权保护内容占比、授权覆盖率及争议处理记录。
五、Adobe的沉默与行业的十字路口
截至本文发稿(2025年12月19日0:30),Adobe尚未就该诉讼发布任何正式声明。其官网SlimLM介绍页仍保留“基于SlimPajama-627B预训练”表述,未添加版权说明或数据来源警示。这种“战略性静默”在业内引发广泛解读:既可能是内部合规评估尚未完成,也可能反映其对现有数据供应链的深度依赖——毕竟,若全面剔除Books3相关数据,SlimLM的文档理解准确率在法律文书、技术白皮书等专业语料上将下降近27%(据第三方基准测试LLM-eval-Pro)。
但风向已然转变。就在诉讼曝光当日,Adobe股价盘后下跌3.2%,创意云订阅服务咨询量环比下降11%;多家出版集团(如Penguin Random House、HarperCollins)紧急召开AI版权策略闭门会;美国国会众议院知识产权小组委员会宣布将于2026年1月召开听证会,专题审议《人工智能训练数据透明度法案》(H.R. 8821)草案。
结语:当每一行代码都承载着他人的思想
SlimLM本意是赋能创作者——让写作者更快梳理逻辑,让编辑更准识别冗余,让翻译者更稳把握语境。可当它的“智慧”根植于未经许可的盗版土壤,技术善意便悄然异化为系统性剥削。
这场诉讼不会立刻终结AI对海量文本的渴求,但它必将加速一个新范式的诞生:未来的顶尖AI,不再以“谁训得更大”为荣,而以“谁用得更敬”为尊。
尊重每一页纸的重量,铭记每一行字的署名,才是生成式智能真正走向文明的起点。
延伸思考:你是否愿意为一款AI工具付费,前提是它承诺100%使用经作者授权的数据训练?如果答案是肯定的,那么下一个问题或许是——你愿为这份“道德溢价”多付多少?
(本文依据2025年12月18日权威信源综合撰写,涵盖路透社、TechCrunch、IT之家及法院公开诉状信息)