17万本盗版书,是“ChatGPT们”变聪明的秘密
2023-08-23 19:09:53 来源:凤凰网
「实锤」终于来了。
(资料图)
今年 7 月,OpenAI 和 Meta 被三位美国作家 Sarah Silverman、Christopher Golden 和 Richard Kadrey 起诉,称两家公司在未经作者同意的情况下,把他们的书用作素材训练大模型。
证据?
在 OpenAI 案件里,原告们输入提示词后,ChatGPT 能够总结出他们的书的内容。
演员、作者 Sarah Silverman 和她的自传,输入提示词后,OpenAI 可呈现该书总结,图片来自 Vulture
在 Meta 案件中,Meta 大模型 LLaMA 的论文里就写着,它训练数据包括一个由 EleutherAI 整理的、名为「ThePile」的素材。
「ThePile」中又包含了一个名为「Books3」的数据集,它的内容正是线上盗版图书资源库 Bibliotik 的数据。
当时,原告们提出的证据还相对「间接」。
直到现在,作家和程序员 Alex Reisner 正式揭露,Meta 的大模型背后到底都盗用了哪些作家的什么书籍。
让人意外的是,这些「证据」其实一直都放在明面,但却一直没有被揭开,这是为什么?
甚至,侵权素材的制造者,还一直坚持说这是一件「正义」的事。
17 万本盗版图书
图片来自 Interesting Engineering
Alex Reisner 的「大项目」缘起于好奇心:
作为一名作家和电脑程序员,我一直很好奇生成式 AI 系统是用什么类型书籍来训练的。
今年夏天,Reisner 开始在 GitHub 和 Hugging Face 等社区找寻答案,最终找上了我们在上文提起的开源数据集「ThePile」。
然而,下载到「ThePile」,并不意味着你就能知道「Books3」里都有什么书。
「ThePile」有 800G,大得一般文本编辑器根本没法看。
Reisner 写了一系列程序才能得以从中提取「Books3」的信息。
图片来自 Unsplash
没想到的是,提取出来的信息里,并没有任何带有「书名」「作者名」等标签的数据,一切都只是「文本」。
于是,Reisner 又另外写了一个程序去提取数据中的 ISBN 编号(国际标准书号),并将这些数据和其他线上图书数据库进行比对,以辨别出「Books3」中被收录的具体书籍。
最后,这一步找出了 19 万个 ISBN 编码,识别出 17 万个对应书名,另外 2 万个编码则无法找到对应书名。
图片来自 Medium
这些书里,大约有 1/3 是虚构作品,2/3 是非虚构作品,来自于大大小小不同的出版社。
是的,在这些被识别出的书里,也包括了文章开篇提到对 OpenAI 和 Meta 提出诉讼的三位作家的书籍。
因此,这可以说是 Meta 的 LLaMA 以盗版书作为训练素材非常直接的证据的了。
此外,我们还能在其中看到《我的天才女友》作者埃莱娜·费兰特、《女仆的故事》作者玛格丽特·阿特伍德、史蒂芬 · 金、村上春树、著名饮食类作家迈克尔·波伦、惊悚小说作家詹姆斯·帕特森等人的众多作品。
玛格丽特·阿特伍德等八千多名作家也写了联名信,要求 AI 公司需要获得作家授权才可将书籍用作训练材料,图片来自《独立报》
除了著名作家的书籍以外,Reisner 还在「Books3」里找到了「科学教」创始人罗恩·哈伯德的 102 本低俗小说、90 本信奉「年轻地球创造论」的牧师约翰·F·迈克阿瑟的书,以及「外星人创造论」支持者埃里希·冯·丹尼肯的多部作品。
Reisner 在《大西洋月刊》的文章中指出,虽然「Books3」数据集在 AI 社区以外认知度不高,但在圈里挺受欢迎的,「可以下载,但要找到有点难度,想要浏览和分析也同样具有挑战性」。
像 Reisner 这样大费周章写程序来分析比对,还精心撰文在大众媒体上发布,还是首次。
与此同时,AI 圈对「Books3」也有心照不宣的维护。
用「Books3」创造者的话来说 —— 它是确保生成式 AI 发展不会被大公司垄断的重要资源。
「盗火者」还是「盗贼」?
图片来自《大西洋月刊》
如果我们不需要像 Books3 这样的东西的确会更好。
但情况是,如果没有 Books3,只有 OpenAI 可以做到他们正在做的事情。
「Books3」的创造者,独立开发者 Shawn Presser 对 Reisner 说道。
Presser 一开始做 Books3,就是为了给所有开发者「OpenAI 级别的训练数据」。
2020 年,Presser 下载了一份 Bibliotik 的副本,再改写了黑客 Aaron Swartz 十多年前写下的程序,将所有 ePub 格式的图书转换成纯文本 —— 一种更合适大模型使用的格式。
至于数据集中部分书的版权信息出现缺失,Presser 称那是转换造成的意外结果,并非自己刻意为之。
而「Books3」这个名字,也是呼应了 OpenAI 之前提及的「Books1」和「Books2」。
在 2020 年的时候,OpenAI 的论文指出,GPT-3 的训练数据中包括两个基于互联网的书籍数据合集。
人们从其体积推测,OpenAI 的「Books1」数据来自于「古登堡计划(Project Gutenberg)」—— 专门收集版权已过期的图书资源的项目。
「Books2」的内容是什么则一直无人知晓,有人从其体积猜是类似 Bibliotik 或 Libgen 的线上盗版图书库的数据。
当然,除了书籍的数据外,GPT-3 当时还用了其他数据,如维基百科和其他从网络上抓取下来的文字信息。
这也是为什么 EleutherAI 整合的「ThePile」里也同样包含了大量其他数据,如维基百科、YouTube 视频的字幕、欧洲议会的文件和速记等等。
即便如此,相比之下,书籍的高质量文本仍然显得很重要。
Meta 曾表示,最开始的 LlaMA-65B 大模型表现没有其他好,主要是因为它「所使用的书籍以及学术论文数量有限」。
MIT 和康奈尔大学合作的论文也指出,书籍在大模型训练数据中「对下游表现有最强正面效果的」。
所以我们会在 Meta 后来推出的 LlaMA 2 训练数据中看到「ThePile」和其中的「Books3」。
图片来自 CNN
这也是为什么,当 Books3 最近因丹麦反盗版组织 Rights Alliance 投诉侵权而被下架时,Presser 感到愤慨不平。
在他看来,所有牟利的大公司在私底下都把侵权内容拿来训练自己的大模型,但又因为他们不公开其训练数据,因此没人能告得了他们。
而 Books3 被下架,却正是因为他希望让大模型更开放和有更高透明度而主动公开数据来源。
Presser 强调,我们不能让财大气粗的大公司垄断这项在重塑我们文化的重要技术,而是要让所有人都有资源去建立自己的大模型:
我的目标要让所有人都能(建造这些大模型)。
除非书籍的作者有方法能把 ChatGPT 拉下线,或者告到他们关门,否则让你和我都能建造自己的 ChatGPT 是非常必要的。
正如在 90 年代的时候,去保证任何人都能设立自己的网站一样重要。
至于把 ChatGPT 告到下线,也不是完全没有可能。
人人都在告 AI 巨头
OpenAI 不再「Open」也不透明,图片来自 Politico
明星作家发起的官司也许引来更多关注,但拥有把 ChatGPT 告到「重造」的潜力的,却是传统新闻媒体。
上周,NPR 报道援引知情人士消息称《纽约时报》正在考虑起诉 OpenAI。
在过去几周里,《纽约时报》都在和 OpenAI 就授权协议谈判。然而,谈判进展似乎不太顺利,以至于《纽约时报》都开始考虑就侵权告 OpenAI 了。
报道称,联邦版权法规定,违法者每项「蓄意」侵权行为最高可罚 15 万美元,再结合《纽约时报》的文章数量,这个金额叠加起来「对于一家公司来说可能是致命的」。
除此以外,如果法官判定 OpenAI 的确非法拿了《纽约时报》的文章来训练大模型,法院也可以命令 OpenAI 销毁 ChatGPT 的数据集,强制它仅用已获得授权的作品来重新训练和创造 ChatGPT。
图片来自 BrookField
无论是原告是《纽约时报》还是书籍作家,这些官司(或潜在官司)能否胜诉,关键都在于 AI 巨头们是否能把这些信息的使用说成「合理使用」 —— 即在特定情况下,可允许不经许可去使用特定作品,譬如教学、评论、研究和报道等。
支持「合理使用」的人有两个论点:
生成式 AI 并不会重现它们用于训练的书籍本身,而是创造新内容;
那些新内容并不会损害原本作品的市场。
纽约大学科技法律与政策诊所的负责人 Jason Schultz 称,在图书被盗用方面,这个论据还挺有力的。
但《纽约时报》的律师则坚持,OpenAI 对报纸文章的使用并不合乎「合理使用」。
假如用户能通过 AI 聊天机器人,获取文章中提及的新闻事件描述,用户可能就不会再去找文章阅读了,因此有可能会成为新闻文章的替代品,影响了原有市场。
法律博主樊百乐指出,知识产权法并非一成不变,但其核心却很坚定 —— 繁荣创作市场。
如果连估值数百亿美元的 AI 公司,都可以不付一分版权费,免费把作家耗费数年心血创作的作品拿去牟利,甚至盗用这些书去训练出意图替代作家的工具,这对创作者而言无疑是致命打击。
Presser 谈论到的「数据不公平」问题,也不应是侵犯创作者权利的借口。
版权问题终究会是决定 AI 能走多远的其中一个关键因素。
范德堡大学知识产权项目联席主任 Daniel Gervais 认为:
版权法是一把悬在 AI 公司头上的利剑,除非它们想出如何协商解决方案,否则这把剑未来几年都会悬在它们头上。
这一切只是新阶段的开始。
最后,我们整理了部分仍在进行中的 AI 公司侵权诉讼,以供参考。
标签:
相关阅读
- (2023-08-23)17万本盗版书,是“ChatGPT们”变聪明的秘密
- (2023-08-23)未央今日播报:互联网金融领域4项金融国家标准发布 中国银联增资至99.63亿元
- (2023-08-23)神州播报丨国家发改委:8月23日24时起 国内汽、柴油价格每吨均提高55元
- (2023-08-23)农业银行利率多少2023(农业银行利率)
- (2023-08-23)预告:商务部8月24日召开8月第2次例行新闻发布会
- (2023-08-23)用大模型重塑搜索 昆仑万维发布国内第一款AI搜索产品
热点推荐
- (2023-08-23)17万本盗版书,是“ChatGPT们”变聪明的秘密
- (2023-08-23)卖游戏账号反被骗上万元 警方循线追踪成功抓获诈骗团伙
- (2023-08-23)未央今日播报:互联网金融领域4项金融国家标准发布 中国银联增资至99.63亿元
- (2023-08-23)神州播报丨国家发改委:8月23日24时起 国内汽、柴油价格每吨均提高55元
- (2023-08-23)大学通信工程专业课程(通信工程专业课程)
- (2023-08-23)农业银行利率多少2023(农业银行利率)
- (2023-08-23)2023国内生物柴油产销呈下滑趋势 国内成品油出口效益分析
- (2023-08-23)两家3艘12亿元!中国最大民营船企连获希腊船东油船订单
- (2023-08-23)中国船燃牵头国内首个船用甲醇燃料加注和质量控制标准通过专家评审
- (2023-08-23)深圳籍油轮“圣油229”轮广西北部湾海域起火
- (2023-08-23)预告:商务部8月24日召开8月第2次例行新闻发布会
- (2023-08-23)河北滦州市推动创建3个市级劳动安全创新工作室
- (2023-08-23)用大模型重塑搜索 昆仑万维发布国内第一款AI搜索产品
- (2023-08-23)河北一商场七夕“降气球雨”,争抢时疑多人被压倒,商场:没有发生踩踏
- (2023-08-23)核污染水排海,无法阻止的“疯狂”?
- (2023-08-23)宝明科技8月23日盘中涨停
- (2023-08-23)起底AB贷 贷款中介的灰色魅影
- (2023-08-23)一文读懂Web3潮牌Xcart独创的IRO新概念
- (2023-08-23)簰洲湾镇:返乡大学生“变身”全民阅读推广志愿者
- (2023-08-23)宝石机械增强发展优势 打造高端装备制造企业
- (2023-08-23)吉林石化炼油化工转型升级项目持续“蓄能”
- (2023-08-23)深地塔科1井创多项国内钻井纪录
- (2023-08-23)河南油田数模一体化打造“透明”油藏
- (2023-08-23)广州石化首批爱跑98号汽油成功出厂
- (2023-08-23)信保业务的模式之争
- (2023-08-23)LPR再现非对称降息,5年期不变是何原因
- (2023-08-23)天风证券给予海螺水泥买入评级 市场份额或进一步回升 盈利底逐渐夯实
- (2023-08-23)银行评级再被下调 高利率下美国金融市场脆弱性加剧
- (2023-08-23)大型石油公司推动中东上游油气并购交易
- (2023-08-23)过去一年增长最快的10家欧洲金融科技企业
- (2023-08-23)创优“三圈”提效能!白云区加快推动青年与城市“双向奔赴”
- (2023-08-23)营养煮方便面(关于营养煮方便面简述)
- (2023-08-23)中信建投:预计人形机器人将会成为数万亿大赛道
- (2023-08-23)科隆:《星空》磅礴真人实景预告片公布
- (2023-08-23)原创丨美航母跑了,菲律宾怂了!俄揭穿背后阴谋!中国统统笑纳!
- (2023-08-23)cad炸开命令快捷键在哪_cad炸开命令快捷键
- (2023-08-22)龙虾的养殖密度(龙虾的养殖)
- (2023-08-22)应城迎来七夕结婚登记小高峰 70余对新人喜结连理
- (2023-08-22)福建省三明市2023-08-22 20:12发布雷电黄色预警
- (2023-08-22)衡阳市召开红火蚁监测与防控技术培训暨现场观摩会
- (2023-08-22)环球新材国际(06616.HK)完成发行4710.65万股代价股份
- (2023-08-22)劫富济贫的人物(劫富济贫)
- (2023-08-22)福建惠安打造国家级乡村振兴样板
- (2023-08-22)“技能昭化”全力稳就业促增收
- (2023-08-22)昆明市七夕节主题活动在西山区举行
- (2023-08-22)曾家山避暑游持续升温
- (2023-08-22)打卡云端之巅,感受海拔520.1314米的浪漫
- (2023-08-22)做活开海文章 共享文旅盛宴
- (2023-08-22)未央今日播报:1031家上市公司披露半年报 快手二季度营收277.4亿元
- (2023-08-22)陕西延川新泰煤矿闪爆事故致11人死亡
- (2023-08-22)康辰药业: 关于金草片III期临床试验完成全部受试者入组的公告
- (2023-08-22)申请失业补助金对什么有影响?需要注意这些
- (2023-08-22)“奔腾的精神——徐悲鸿中国画展”在中国美术馆展出
- (2023-08-22)安徽省淮南市集中开展依法整治非法经营成品油行为专项行动
- (2023-08-22)设计湾区新故事,第四届宝安文创设计大赛金奖出炉啦!
- (2023-08-22)深化青藏高原民族建筑研究
- (2023-08-22)七夕为浪漫“加点料”,天猫奢品数字相册、音乐体验限时开启
- (2023-08-22)国家发改委等部门:积极发挥碳减排支持工具作用 引导金融机构为符合条件的项目提供资金支持
- (2023-08-22)中石化一人调任中化能源董事长!
- (2023-08-22)公安部:今年以来全国枪爆犯罪案件同比下降16%
- (2023-08-22)职务侵占请律师费用多少
- (2023-08-22)社区金融是出路吗?这家银行的零售转型不太一样
- (2023-08-22)马特乌斯:莱万33岁值5千万凯恩30岁怎不值1亿,他不会是下个马内
- (2023-08-22)当下核电正值景气上升阶段!核电行业利润率影响因素分析
- (2023-08-22)千千静音音乐播放器 千千静音
- (2023-08-22)第19届杭州亚运会5克金质纪念币多少钱(2023年08月22日)
- (2023-08-22)智飞生物跌超7%,创新药ETF(159992)盘中溢价丨ETF观察
- (2023-08-22)美国宾州百年城堡“悬浮”展览工业化前用品
- (2023-08-22)我国首次在超深水海域完成海管清理作业
- (2023-08-22)销售华南7月成品油经营取得新成效
- (2023-08-22)挪威国家石油公司Equinor在北海获第9个油气发现
- (2023-08-22)去了一趟美国,我们发现了6个消费细分领域的新机会
- (2023-08-22)美丽生态(000010):8月22日10时42分触及跌停板
- (2023-08-22)一夜暴涨6600亿,这家芯片龙头又火了!
- (2023-08-22)大港油田老区复杂断块稳产透视
- (2023-08-22)广东揭阳:广东石化航空煤油首次销往欧洲市场
- (2023-08-22)吐哈油田在线变黏压裂液降成本
- (2023-08-22)上半年净利润同比增超34倍!先声药业一度涨超7%
- (2023-08-22)“十四冬”内蒙古第一批体能达标测试举行
- (2023-08-22)携程七夕数据出炉:有情侣花8.2万订房
- (2023-08-22)炼油行业收入下降达40.7%,中石化炼化工程上半年营收净利润双降
- (2023-08-22)【完井】哈里伯顿推出新型压缩式封隔器
- (2023-08-22)轮转的王座,不变的焦虑
- (2023-08-22)银行数字营销运营的理想与现实
- (2023-08-22)珊瑚蚌怎么吃 珊瑚蚌好吃吗
- (2023-08-22)Win11系统将允许用户直接卸载内置应用
- (2023-08-22)券商积极开展北交所做市业务 6月份以来新增做市37起
- (2023-08-22)卖皮肤被指“割韭菜” 《王者荣耀》七年之痒了
- (2023-08-22)河南端午晚会完整视频 河南端午晚会
- (2023-08-22)金融活水 助企腾飞 截至今年6月末 深圳企事业单位本外币贷款余额同比增长12.6%
- (2023-08-21)格林伍德接受太阳报采访的一些言论:“作为一名职业...
- (2023-08-21)广汽埃安首批 100 台 AION Y Plus 车型出海,发运泰国林查班港
- (2023-08-21)周六表决!碧桂园永胜即将抽签选房,千灯湖第一村等到了
- (2023-08-21)小学生读后感怎么写【优秀8篇】
- (2023-08-21)星昊医药上半年营收和净利润大增:毛利率达75.72% 一款产品获得波兰和德国上市许可
- (2023-08-21)三伏第二章照片怎么组合-特殊照片获取方法
- (2023-08-21)“高手”云集阿尔山 赋能产业谈发展
- (2023-08-21)新疆阿克苏地区全力助推别迭里口岸开放
- (2023-08-21)大食物观·食品科技与产业创新发展阿尔山峰会举行
- (2023-08-21)四川省第五批天府旅游名县命名县名单公示