如何看待Anthropic购买百万实体书,扫描蒸馏后销毁?法院为啥认定合理使用?该行为可能带来啥影响?
X上热帖说Anthropic买了几百万书籍,切脊扫描出数字版本喂给 AI 后把书销毁。 路透社-韩联社报道?? 美国人工智能公司Anthropic被曝购买并扫描了数百万册实体书籍,用于训练其人工智能系统。随着人工智能公司之间为获取高质量数据而展开的竞争日益激烈,前所未有的“实体收集”方法正被采用。 《华盛顿邮报》27日(当地时间)报道称,人类动物公司(Anthropic)在2024年斥资数千万美元购买大量书籍,这些书籍经过裁剪、扫描后,被用于训练人工智能,该项目名为“巴拿马计划”(Project Panama)。此前,人类动物公司曾因未经授权使用书籍而遭到作者的版权侵权诉讼,最终以15亿美元(约合2万亿韩元)达成和解。然而,法院公开的诉讼相关文件曝光了人类动物公司的人工智能训练方法。 Anthropic公司积极利用书籍进行人工智能训练,因为与互联网上的内容相比,书籍提供的文本更加精细。该公司从二手书店和零售书店批量购买了数万册书籍。Anthropic还与一家能够扫描50万至200万册书籍的供应商签订了合同,并安排一家回收公司回收扫描后的书籍。内部文件指出,“巴拿马计划旨在对全球所有书籍进行破坏性扫描”,并补充道,“我们不希望我们正在进行这个项目的事实被人知晓。” 此前,Anthropic 也曾从非法网站获取书籍的 PDF 版本。Anthropic 的联合创始人 Ben Mann 于 2021 年批准从一个名为“Libgen”的非法图书馆网站下载数百万册书籍。 美国旧金山联邦法院裁定,Anthropic公司使用购买的图书进行人工智能训练属于“合理使用”范畴,因为其目的是创建新的人工智能模型,而非直接复制图书。然而,非法下载图书的行为被认定为潜在的版权侵权。该案原定于去年12月开庭审理,但由于Anthropic公司与作者达成15亿美元的和解协议,审判提前结束。