インターネット・アーカイブをブロックしてもAIの学習は止まらない — それはウェブの記憶を消す

インターネット・アーカイブをブロックしてもAIの学習は止まらない — それはウェブの“記憶”を消す
主要な出版社はインターネット・アーカイブのクローラーをブロックし始めており、特にニューヨーク・タイムズは従来のrobots.txtによる制御を超えて、ウェイバックマシンがそのページを取得・保存することを防いでいます。インターネット・アーカイブ — ウェイバックマシンを運営し、1兆ページ以上を保存するウェブ最大のデジタル図書館 — は、ジャーナリスト、歴史家、裁判所、一般市民にとって日常的な研究ツールです。非営利のアーカイブ用クローラーへのアクセスを遮断することで、出版社は編集、訂正、撤回といったライブなウェブ上では消えてしまう情報を含め、ニュースがオンライン上でどのように表示されていたかの唯一の一貫した公的記録を解体する危険を招きます。
出版社はこれらの措置を、ニュースコンテンツをスクレイピングして大規模言語モデルなどを訓練するAI企業への懸念に応じたものだと説明しています。いくつかの報道機関は、AI学習における著作権素材の利用を巡って訴訟を起こしています。仮に最終的に裁判所が出版社の側につくとしても、歴史を保存する機関からアーカイブ用アクセスを取り上げることは不釣り合いな対応です。インターネット・アーカイブは商業的なAIトレーナーではなく、保存と発見のために複製を行う図書館に近い機能を果たしています。図書館やアーカイブによる複製が研究、アクセス、公益の目的に資する場合、著作権法上これらは長く異なる扱いを受けてきました。技術的な全面ブロックの副次的被害は、報道や公共の議論がどのように進化したかを理解するために多くの人が依拠している証拠記録の漸進的な喪失です。
アーカイブがニュースを保存する能力を奪うことは、AI学習データを巡る当面の争いをはるかに越える長期的なコストを生みます。記者は歴史的な主張を裏付け・検証するための安定した情報源を失い、研究者はメディアの長期的な研究に穴が開き、裁判所は当時のオンライン出版物の同時記録を欠く可能性があります。出版社とアーカイブは技術的障壁を築くのではなく、商業的利益を保護しつつ公的記録を消さないような、対象を絞った合意や選択的な公開猶予、法的明確化などの道を模索すべきです。
主な影響
- 歴史記録の危機: アーカイブ用クローラーをブロックすると、多くのニュースページの唯一の独立したスナップショットが失われます。
- 的外れな対策: 技術的ブロックは商業的なモデル構築者ではなく、非営利の保存活動を標的にしています。
- 法的・政策的摩擦: AI学習を巡る継続的な訴訟がアクセスの基準を決める可能性がありますが、中間的なアーカイブ損失は回復不可能です。
- 解決策の必要性: 交渉によるアクセス、選択的な保留、法的な整理によって権利と保存のバランスを取ることができます。
Doppler VPNで接続を保ち、安全にブラウジングしてください。
出典:
プライバシーを守る準備はできましたか?
Doppler VPNをダウンロードして、今日から安全にブラウジングしましょう。

