
互联网最强存档工具Wayback Machine面临危机:新闻巨头为何纷纷封禁?
新闻调查的利器,却遭新闻巨头封禁
本月,《今日美国》发布了一篇深度报道,揭露了美国移民与海关执法局(ICE)如何延迟披露其拘留政策影响的关键信息。这篇报道的独特之处在于,记者们使用了互联网档案馆(Internet Archive)的Wayback Machine来汇编和分析ICE的拘留统计数据,追踪该机构在特朗普政府时期的变化。
然而,Wayback Machine的负责人Mark Graham却指出,这“有点讽刺”。因为《今日美国》的母公司——前身为Gannet、旗下运营着同名报纸及200多家媒体机构的USA Today Co.——恰恰禁止Wayback Machine存档其内容。Graham表示:“他们能完成报道研究,正是因为Wayback Machine存在。但同时,他们却在封锁访问。”
封禁潮背后的原因与影响
《今日美国》并非孤例。近期,包括《纽约时报》在内的多家主要新闻机构也采取了类似措施,限制Wayback Machine存档其文章。根据AI检测初创公司Originality AI的分析,目前有23家主要新闻网站正在屏蔽ia_archiverbot——这是互联网档案馆用于Wayback项目的常用网络爬虫。社交平台Reddit同样加入了屏蔽行列。
其他媒体则以不同方式限制该项目:《卫报》虽未屏蔽爬虫,但将其内容排除在互联网档案馆API之外,并从Wayback Machine界面过滤文章,这使得普通用户更难访问其文章的存档版本。
新闻机构给出的理由:
- 《今日美国》发言人Lark-Marie Anton强调,此举“并非专门针对互联网档案馆”,而是公司更广泛的阻止所有抓取机器人的努力的一部分。
- 《卫报》商业事务与许可总监Robert Hahn表示,他们已与档案馆就“对AI公司可能滥用为保存目的而抓取的内容集的担忧”进行了对话。
记者与倡导组织的反击
面对这一趋势,记者和倡导组织正在积极反击。本周,包括电子前沿基金会(EFF)和Fight for the Future在内的倡导组织联合发起了支持Wayback Machine的运动。该联盟已收集到100多名在职记者的签名,呼吁新闻机构重新考虑对存档工具的封锁。
为什么Wayback Machine如此重要?
Wayback Machine不仅是历史记录的守护者,更是新闻调查、学术研究和公共监督的关键工具。它通过定期抓取和保存网页,确保了信息的持久可访问性,防止了内容被修改或删除后“消失”。在假新闻泛滥、数字内容易被篡改的时代,这种存档功能对于维护真相和问责制至关重要。
行业背景:AI与内容抓取的紧张关系
当前,AI公司大规模抓取网络数据用于训练模型,引发了内容创作者对版权和滥用的担忧。新闻机构可能将Wayback Machine视为潜在的数据源,担心其存档内容被AI公司不当利用。然而,这种“一刀切”的屏蔽策略,也可能损害公共利益——正如《今日美国》自己的报道所依赖的那样。
小结:平衡保护与开放
Wayback Machine的危机凸显了数字时代的一个核心矛盾:如何在保护内容创作者权益的同时,维护信息的公共可访问性?新闻机构的封锁措施虽出于商业考量,但可能削弱新闻业自身的调查能力。记者们的反击表明,存档工具的价值已得到行业内部的认可。未来,或许需要更精细的解决方案——例如,通过技术协议或法律框架,区分善意存档与商业抓取,以确保Wayback Machine这类公益项目能继续为公众服务。


