17 万本盗版书，是「ChatGPT 们」变聪明的秘密

当前位置：首页 > 聚焦 > >正文

17 万本盗版书，是「ChatGPT 们」变聪明的秘密

来源：手机网易网时间：2023-08-23 18:54:18

「实锤」终于来了。

今年 7 月，OpenAI 和 Meta 被三位美国作家 Sarah Silverman、Christopher Golden 和 Richard Kadrey 起诉，称两家公司在未经作者同意的情况下，把他们的书用作素材训练大模型。

▲ 演员、作者 Sarah Silverman 和她的自传，图片来自 Vulture

(资料图片仅供参考)

证据？

在 OpenAI 案件里，原告们输入提示词后，ChatGPT 能够总结出他们的书的内容。

在 Meta 案件中，Meta 大模型 LLaMA 的论文里就写着，它训练数据包括一个由 EleutherAI 整理的、名为「ThePile」的素材。

「ThePile」中又包含了一个名为「Books3」的数据集，它的内容正是线上盗版图书资源库 Bibliotik 的数据。

由此可见，当时原告提出的证据还相对「间接」。

直到现在，作家和程序员 Alex Reisner 正式揭露，Meta 的大模型背后到底都盗用了哪些作家的图书。

让人意外的是，这些「证据」其实一直都放在明面，但却一直没有被揭开，这是为什么？

甚至，侵权素材的制造者，还一直坚持说这是一件「正义」的事。

17 万本盗版图书

▲ 图片来自 Interesting Engineering

Alex Reisner 的「大项目」缘起于好奇心：

今年夏天，Reisner 开始在 GitHub 和 Hugging Face 等社区找寻答案，最终找上了我们在上文提起的开源数据集「ThePile」。

然而，下载到「ThePile」，并不意味着你就能知道「Books3」里都有什么书。

首先，因为「ThePile」有 800G，大得一般文本编辑器根本没法看。Reisner 写了一系列程序才能得以从中提取「Books3」的信息。

▲ 图片来自 Unsplash

没想到的是，提取出来的信息里，并没有任何带有「书名」「作者名」等标签的数据，一切都只是「文本」。

于是，Reisner 又另外写了一个程序去提取数据中的 ISBN 编号（国际标准书号），并将这些数据和其他线上图书数据库进行比对，以辨别出「Books3」中被收录的具体书籍。

最后，这一步找出了 19 万个 ISBN 编码，识别出 17 万个对应书名（实际书数量可能会略少于这个数，因为其中存在同一本书的不同版本），另外 2 万个编码则无法找到对应书名。

这些书里，大约有 1/3 是虚构作品，2/3 是非虚构作品，来自于大大小小不同的出版社。

是的，在这些被识别出的书里，也包括了文章开篇提到对 OpenAI 和 Meta 提出诉讼的三位作家的书籍，所以可以说是 Meta 的 LLaMA 以盗版书作为训练素材非常直接的证据的了。

此外，我们还能在其中看到《我的天才女友》作者埃莱娜·费兰特、《女仆的故事》作者玛格丽特·阿特伍德、史蒂芬 · 金、村上春树、著名饮食类作家迈克尔·波伦、惊悚小说作家詹姆斯·帕特森等人的众多作品。

▲ 玛格丽特·阿特伍德等八千多名作家也写了联名信，要求 AI 公司需要获得作家授权才可将书籍用作训练材料，图片来自《独立报》

除了著名作家的书籍以外，Reisner 还在「Books3」里找到了「科学教」创始人罗恩·哈伯德的 102 本低俗小说、90 本信奉「年轻地球创造论」的牧师约翰·F·迈克阿瑟的书，以及「外星人创造论」支持者埃里希·冯·丹尼肯的多部作品。

Reisner 在《大西洋月刊》的文章中指出，虽然「Books3」数据集在 AI 社区以外认知度不高，但在圈里挺受欢迎的，「可以下载，但要找到有点难度，想要浏览和分析也同样具有挑战性」。

像 Reisner 这样大费周章写程序来分析比对，并且还精心撰文在大众媒体上发布，还是首次。

与此同时，AI 圈对「Books3」也有心照不宣的维护，因为，以「Books3」创造者的话来说 —— 它是确保生成式 AI 发展不会被大公司垄断的重要资源。

「盗火者」还是「盗贼」？

▲图片来自《大西洋月刊》

「Books3」的创造者，独立开发者 Shawn Presser 对 Reisner 说道。

Presser 一开始做 Books3，就是为了给所有开发者「OpenAI 级别的训练数据」。

2020 年，Presser 下载了一份 Bibliotik 的副本，再改写了黑客 Aaron Swartz 十多年前写下的程序，将所有 ePub 格式的图书转换成纯文本 —— 一种更合适大模型使用的格式。

至于数据集中部分书的版权信息出现缺失，Presser 称那是转换造成的意外结果，并非自己刻意为之。

而「Books3」这个名字，也是呼应了 OpenAI 之前提及的「Books1」和「Books2」。

在 2020 年的时候，OpenAI 的论文指出，GPT-3 的训练数据中包括两个基于互联网的书籍数据合集。

人们从其体积推测，OpenAI 的「Books1」数据来自于「古登堡计划（Project Gutenberg）」—— 专门收集版权已过期的图书资源的项目。

「Books2」的内容是什么则一直无人知晓，有人从其体积猜是类似 Bibliotik 或 Libgen 的线上盗版图书库的数据。

当然，除了书籍的数据外，GPT-3 当时还用了其他数据，如维基百科和其他从网络上抓取下来的文字信息。

这也是为什么 EleutherAI 整合的「ThePile」里也同样包含了大量其他数据，如维基百科、YouTube 视频的字幕、欧洲议会的文件和速记等等。

即便如此，相比之下，书籍的高质量文本仍然显得很重要。

Meta 曾表示，最开始的 LlaMA-65B 大模型表现没有其他好，主要是因为它「所使用的书籍以及学术论文数量有限」。

MIT 和康奈尔大学合作的论文也指出，书籍在大模型训练数据中「对下游表现有最强正面效果的」。

所以我们会在 Meta 后来推出的 LlaMA 2 训练数据中看到「ThePile」和其中的「Books3」。

▲ 图片来自 CNN

这也是为什么，当 Books3 最近因丹麦反盗版组织 Rights Alliance 投诉侵权而被下架时，Presser 感到愤慨不平。

在他看来，所有牟利的大公司在私底下都把侵权内容拿来训练自己的大模型，但又因为他们不公开其训练数据，因此没人能告得了他们。

而 Books3 被下架，却正是因为他希望让大模型更开放和有更高透明度而主动公开数据来源。

Presser 强调，我们不能让财大气粗的大公司垄断这项在重塑我们文化的重要技术，而是要让所有人都有资源去建立自己的大模型：

至于把 ChatGPT 告到下线，也不是完全没有可能。

人人都在告 AI 巨头

▲ OpenAI 不再「Open」也不透明，图片来自 Politico

明星作家发起的官司也许引来更多关注，但拥有把 ChatGPT 告到「重造」的潜力的，却是传统新闻媒体。

上周，NPR 报道援引知情人士消息称《纽约时报》正在考虑起诉 OpenAI。

在过去几周里，《纽约时报》都在和 OpenAI 就授权协议谈判。然而，谈判进展似乎不太顺利，以至于《纽约时报》都开始考虑就侵权告 OpenAI 了。

报道称，联邦版权法规定，违法者每项「蓄意」侵权行为最高可罚 15 万美元，再结合《纽约时报》的文章数量，这个金额叠加起来「对于一家公司来说可能是致命的」。

除此以外，如果法官判定 OpenAI 的确非法拿了《纽约时报》的文章来训练大模型，法院也可以命令 OpenAI 销毁 ChatGPT 的数据集，强制它仅用已获得授权的作品来重新训练和创造 ChatGPT。

▲ 图片来自 BrookField

无论是原告是《纽约时报》还是书籍作家，这些官司（或潜在官司）能否胜诉，关键都在于 AI 巨头们是否能把这些信息的使用说成「合理使用」 —— 即在特定情况下，可允许不经许可去使用特定作品，譬如教学、评论、研究和报道等。

支持「合理使用」的人有两个论点：

生成式 AI 并不会重现它们用于训练的书籍本身，而是创造新内容；那些新内容并不会损害原本作品的市场。

纽约大学科技法律与政策诊所的负责人 Jason Schultz 称，在图书被盗用方面，这个论据还挺有力的。

但《纽约时报》的律师则坚持，OpenAI 对报纸文章的使用并不合乎「合理使用」。

假如用户能通过 AI 聊天机器人，获取文章中提及的新闻事件描述，用户可能就不会再去找文章阅读了，因此有可能会成为新闻文章的替代品，影响了原有市场。

法律博主樊百乐指出，知识产权法并非一成不变，但其核心却很坚定 —— 繁荣创作市场。

如果连估值数百亿美元的 AI 公司，都可以不付一分版权费，免费把作家耗费数年心血创作的作品拿去牟利，甚至盗用这些书去训练出意图替代作家的工具，这对创作者而言无疑是致命打击。

Presser 谈论到的「数据不公平」问题，也不应是侵犯创作者权利的借口。

版权问题终究会是决定 AI 能走多远的其中一个关键因素。

范德堡大学知识产权项目联席主任 Daniel Gervais 认为：

这一切只是新阶段的开始。

✍ ✍ ✍

最后，我们整理了部分仍在进行中的 AI 公司侵权诉讼，以供参考

X 关闭

最近更新

17 万本盗版书，是「ChatGPT 们」变聪明的秘密

2023-08-23 18:54:18

聚焦
贷款资金被挪用归还他行贷款中信银行宜昌分行被罚65万元

2023-08-23 17:19:37

聚焦
马斯克：传统油车将迎“柯达时刻” 不转型电动车会像“胶卷”一样被淘汰

2023-08-23 15:56:49

聚焦
如祺出行赴港IPO的想象空间：加速建立可商业化自动驾驶体系

2023-08-23 14:46:57

聚焦
两大业务板块保持增长，康师傅上半年营收超409亿元

2023-08-23 12:54:39

聚焦
梦见好多兔子什么预兆

2023-08-23 11:37:01

聚焦
宁夏回族自治区银川市发布暴雨红色预警

2023-08-10 15:47:04

聚焦
《博德之门3》迅捷头盔获得方法

2023-08-10 15:11:28

聚焦
国足体能教练：中国独生子女多，个人主义更难踢好足球

2023-08-10 14:42:31

聚焦
la（mer 价格）

2023-08-10 14:02:05

聚焦
现货价格金十期货8月10日讯，今日棉花、豆粕现货价格涨跌不一，国产豆油、棕榈油、白糖现货价格全线上涨，进口菜油、国产菜粕现货价格全线下跌

2023-08-10 13:35:07

聚焦
推动释放数据价值新华三赋能政府数智化转型

2023-08-10 12:38:25

聚焦
台风“卡努”在韩国庆尚南道沿海登陆

2023-08-10 12:06:31

聚焦
BO成功登顶欧服第一，目前已经回到中国，明年还想在LEC打比赛

2023-08-10 11:34:19

聚焦
etf基金是什么 etf与lof有什么区别

2023-08-10 11:07:38

聚焦
金昌市金川区 “暑期课堂”精彩纷呈

2023-08-10 10:50:15

聚焦
内容正在升级改造，请稍后再试！

2023-08-10 10:17:38

聚焦
胃不好要注意什么?_胃不好要注意什么

2023-08-10 09:51:33

聚焦
张家口市宣化区：洋河水库生态修复工程进行时

2023-08-10 09:26:08

聚焦
2艘055B舰即将下水，满载排水量15000吨，搭载电磁炮与激光武器

2023-08-10 09:08:39

聚焦
凌晨，大跳水！美国又要下"黑手"！3300亿巨头突然"死亡"，什么情况？疯抢锂矿，加价超660倍

2023-08-10 08:33:32

聚焦
公募基金多措并举活跃资本市场传递A股长期投资信心

2023-08-10 07:43:19

聚焦
记事本文件如何转换成excel（记事本文件）

2023-08-10 06:34:22

聚焦
贵州省赤水市村集体经济实现多点开花

2023-08-10 05:55:32

聚焦
不与的意思解释（不与的意思）

2023-08-10 03:04:54

聚焦
第三代蛮神（赛蛮神）

2023-08-09 23:09:50

聚焦
于洋：得知对阵国安能出场非常兴奋，对我来说是一种奖励

2023-08-09 22:04:02

聚焦
来了！iPhone 15发布会将于9月12日举办：推出4款新iPhone 将提前录制

2023-08-09 20:56:59

聚焦
教你学会看盘系列（185）：8月10日周四盘前策略：尾盘露玄机，周四撸袖子干这里

2023-08-09 19:51:23

聚焦
佘诗曼避谈旧爱郑嘉颖新恋情跟陈浩民郑嘉颖有过一段情

2023-08-09 19:00:24

聚焦
立足小起点汇聚大成效——路桥三公司傅苦项目设备微创新助力路面品质提升

2023-08-09 18:44:31

聚焦
2023年8月湖北油价调整表

2023-08-09 17:54:13

聚焦
唐太平公主府首次发现红墙绿瓦

2023-08-09 17:35:03

聚焦
联合国际：授予西安浐灞集团“BBB-”国际长期发行人评级，展望“稳定”

2023-08-09 17:06:39

聚焦
秋燥来袭，流鼻血了怎么办？医生盘点错误止血方式，看看你中招没！

2023-08-09 16:14:14

聚焦
中国援老挝医疗专家组举行义诊活动

2023-08-09 15:59:06

聚焦
重庆巫山：“管家式”气象服务护航三峡云端自行车邀请赛

2023-08-09 15:24:33

聚焦
白果怎么做才好吃白果怎么吃

2023-08-09 14:50:30

聚焦
龙虾尾怎么做火锅底料龙虾尾怎么做

2023-08-09 14:14:48

聚焦
福建宁德市总工会：“云”逛招聘会探岗人才周

2023-08-09 13:44:39

聚焦
换道领先！中国汽车出口跃居世界首位新能源汽车成关键

2023-08-09 12:49:20

聚焦
富临精工：公司客户及车型多元化拓展，公司产能的逐步释放，公司磷酸铁锂业务环比持续明显改善

2023-08-09 11:58:03

聚焦
国防部新闻发言人就仁爱礁有关问题答记者问

2023-08-09 11:44:23

聚焦
佩洛西：特朗普若再次当选总统，美国将不复存在

2023-08-09 11:20:48

聚焦
河南省社旗县总工会筹措7.2万元资金送清凉

2023-08-09 11:05:30

聚焦
再见内马尔！缺席训练＋要回巴萨，学习姆巴佩，大巴黎或强制罚款

2023-08-09 10:29:02

聚焦
女子做完手术没找到外卖，外卖员阿姨：回家做一份给送过来

2023-08-09 10:06:32

聚焦
两部门部署海河流域东北地区防汛救灾工作

2023-08-09 09:47:58

聚焦
永贵电器（300351）8月8日主力资金净卖出3071.65万元

2023-08-09 09:07:27

聚焦
为民故事会|欠薪执行到位了

2023-08-09 08:50:48

聚焦
武汉地铁通报轨道交通12号线兴业路站基坑渗漏水情况

2023-08-09 08:05:15

聚焦
蒸饵丝(关于蒸饵丝简述)

2023-08-09 07:02:49

聚焦
雷雨+大风+冰雹！未来三天…

2023-08-09 06:11:46

聚焦
男子花光9万积蓄只为跟人攀比充话费最后傻了为攀比男子怒充9万话费）

2023-08-09 04:14:12

聚焦
成都大运会｜以运动，致青春！

2023-08-09 00:58:18

聚焦
一图读懂｜疾控专家带您详解洪涝灾害后卫生防疫

2023-08-08 22:18:21

聚焦
成信大“小青椒”手绘漫画分享大运会志愿者工作

2023-08-08 21:52:24

聚焦
爱在落坡岭，致敬每一位伸出援手的热心人！

2023-08-08 20:54:58

聚焦
刑事诉讼能否阻止特朗普重回白宫

2023-08-08 19:58:38

聚焦
仙宜岱品牌介绍_仙子宜岱内衣内裤

2023-08-08 19:02:37

聚焦
极客武装！iGame RTX 4060 Ti Mini显卡发售，3399起！

2023-08-08 18:34:25

聚焦
8月12日报名！九江一地公开选调32人

2023-08-08 18:02:33

聚焦
四川金顶: 四川金顶（集团）股份有限公司关于全资子公司拟投资新建年产120万吨绿色环保新材料项目的公告

2023-08-08 17:21:05

聚焦
Meta解散6亿个蛋白质结构数据库称将专注于人工智能

2023-08-08 17:00:53

聚焦
非银金融行业8月8日资金流向日报

2023-08-08 16:41:25

聚焦
定了！10月13日，费德勒约你上海见

2023-08-08 16:11:54

聚焦
云南德宏发生山体滑坡：3人受困被消防救出，其中2人遇难

2023-08-08 15:52:39

聚焦
刚刚！碧桂园承认了

2023-08-08 15:05:31

聚焦
经典弹射游戏——弹弹堂

2023-08-08 14:28:51

聚焦
竞速折叠屏，荣耀手机们的回春药

2023-08-08 13:48:57

聚焦
外国运动员感受大运村科技魅力体验汉语之美

2023-08-08 13:02:15

聚焦
提高电源适配器效率，满足六级能效的几个小秘诀 (附案例)

2023-08-08 12:18:56

聚焦
比亚迪与Stingray达成合作，将面向国际市场引入车载KTV娱乐系统

2023-08-08 12:03:57

聚焦
我国外汇储备规模保持基本稳定经济长期向好基本面没有改变

2023-08-08 11:14:22

聚焦
泡温泉要穿泳裤吗（泡温泉要穿泳衣吗）

2023-08-08 10:55:50

聚焦
瑞典挪威遭强降雨：列车脱轨、道路被淹、交通受阻

2023-08-08 10:13:23

聚焦
帝斯曼-芬美意宣布完成收购后生元研发及制造企业Adare Biome

2023-08-08 10:17:39

聚焦
环旭电子：公司未从事智能手机的组装代工业务

2023-08-08 09:55:46

聚焦
《DOTA2》现在A掉多个装备将受到严重惩罚

2023-08-08 09:13:42

聚焦
湖南：对保交楼专项借款项目、恒大项目集中攻坚确保年底前交付率逾90%

2023-08-08 08:50:08

聚焦
一言以蔽之曰思无邪句式（一言以蔽之曰思无邪）

2023-08-08 07:57:21

聚焦
独家调查！这个疑似美国邪教分支正在中国传播

2023-08-08 07:35:30

聚焦
冷门不冷清的赛场见证青春的脉动

2023-08-08 06:15:46

聚焦
左右脑开发图片训练左右脑开发

2023-08-08 05:22:12

聚焦
新年感悟的高一作文500字

2023-08-08 02:10:47

聚焦
人员不整令人头痛！下轮碰泰山，蓉城全力避免三连败

2023-08-07 23:11:04

聚焦
最新地震预警报告专家预计新增数千万人开启地震预警基本情况讲解

2023-08-07 22:12:23

聚焦
正式上线！海南省卫健委开通医疗行风线上举报功能

2023-08-07 21:08:00

聚焦
吉林舒兰3名公职人员乘坐的车辆被找到

2023-08-07 20:05:45

聚焦
新风光：部分董监高、股东拟合计减持公司不超3.31%股份

2023-08-07 19:51:10

聚焦
倒v标志是什么车，倒v标志是什么车价格

2023-08-07 18:42:59

聚焦
洪山区李桥村正以“微改造”方式进行试点

2023-08-07 18:06:10

聚焦
《封神》导演乌尔善：姬发是封神故事的主角

2023-08-07 17:48:58

聚焦
细数NBA各队球员退役号码榜首竟退役23个一队已决定另辟蹊径

2023-08-07 17:11:17

聚焦
恶搞游戏《再不吃寿司会死掉！》续作新演示公开

2023-08-07 16:42:02

聚焦
郑东新区豫兴路办事处开展非机动车整治行动

2023-08-07 15:57:05

聚焦
AMD 确认下一代 Instinct MI400 系列 AI 加速器已在开发中

2023-08-07 15:47:33

聚焦
爱又米上征信叫什么爱又米上征信

2023-08-07 15:15:36

聚焦
港股异动 | 美兰空港(00357)跌近5% 7月海南离岛免税销售额同比下降34%

2023-08-07 15:04:34

聚焦
“日元先生”：日元已获支撑且将走高日本央行料不会干预汇市

2023-08-07 14:43:11

聚焦

17 万本盗版书，是「ChatGPT 们」变聪明的秘密

推荐内容

最近更新