news
阻止互联网档案馆不会阻止人工智能训练 —— 它将抹去网络的记忆
作者 Doppler Team••1分钟阅读

阻止互联网档案馆不会阻止人工智能训练 —— 它将抹去网络的记忆
大型出版商已经开始屏蔽互联网档案馆的爬虫,最引人注目的是纽约时报,它已超出传统的 robots.txt 控制,阻止网页时光机捕获和保存其页面。互联网档案馆——运营网页时光机并拥有超过一万亿个归档页面的网络最大数字图书馆——是记者、历史学家、法庭和公众的日常研究工具。通过切断非营利档案爬虫的访问,出版商冒着拆毁关于新闻如何在线呈现的唯一一致性公开记录的风险,其中包括否则会从实时网络上消失的编辑、更正和撤回记录。
出版商表示,他们的做法是为了回应对人工智能公司抓取新闻内容以训练大型语言模型和其他系统的担忧,且若干新闻机构已就版权材料在人工智能训练中的使用提起诉讼。即便法院最终站在出版商一边,从保护历史的机构那里移除归档访问也是一种不成比例的反应。互联网档案馆并不是商业性的人工智能训练者;它更像是为保存与发现而复制资源的图书馆。长期以来,当图书馆和档案的复制行为服务于研究、获取和公共利益目的时,版权法通常对其有不同的对待。全面技术性封锁的附带损害,是许多人依赖以了解报道和公共话语如何演变的证据记录逐步丧失。
移除档案保存新闻的能力会带来长期代价,远超当前关于人工智能训练数据的即时争议。记者将失去用于核实和引用历史性主张的稳定来源,研究人员在媒体纵向研究中将面临空白,法庭可能缺乏在线出版物的同期记录。出版商和档案机构应当探索针对性的协议,以在不抹去公共记录的情况下保护商业利益,而不是筑起技术屏障。
主要影响
- 历史记录面临风险:屏蔽档案爬虫会移除许多新闻页面的唯一独立快照。
- 适得其反的补救措施:技术封锁针对的是非营利保存机构,而非商业模型构建者。
- 法律与政策摩擦:围绕人工智能训练的持续诉讼可能决定访问规范,但中间的档案损失是不可逆的。
- 需要解决方案:通过协商访问、选择性禁运和法律澄清可以在权利和保存之间取得平衡。
保持连接并使用 Doppler VPN 安全浏览。
来源:
准备好保护您的隐私了吗?
下载Doppler VPN,今天就开始安全浏览。

