Bloquer l'Archive Internet n'empêchera pas l'entraînement des IA — cela effacera la mémoire du Web

Bloquer l'Archive Internet n'empêchera pas l'entraînement des IA — cela effacera la mémoire du Web
De grands éditeurs ont commencé à bloquer les robots d'indexation de l'Archive Internet, le plus notable étant Le New York Times, qui a dépassé les contrôles traditionnels via robots.txt pour empêcher la Machine à remonter le temps de capturer et préserver ses pages. L'Archive Internet — opératrice de la Machine à remonter le temps et plus grande bibliothèque numérique du web avec plus d'un billion de pages archivées — est un outil quotidien de recherche pour les journalistes, les historiens, les tribunaux et le grand public. En coupant l'accès aux robots d'archivage à but non lucratif, les éditeurs risquent de démanteler le seul registre public cohérent montrant comment les informations ont été publiées en ligne, y compris les modifications, corrections et rétractations qui disparaissent autrement du web en direct.
Les éditeurs affirment que leurs actions répondent à l'inquiétude suscitée par des entreprises d'IA qui raspent du contenu journalistique pour entraîner des grands modèles de langage et d'autres systèmes, et plusieurs organisations de presse ont engagé des poursuites concernant l'utilisation de matériel protégé par le droit d'auteur dans l'entraînement des IA. Même si les tribunaux donnaient finalement raison aux éditeurs, retirer l'accès d'archivage à des institutions qui préservent l'histoire constitue une réponse disproportionnée. L'Archive Internet n'est pas un entraîneur commercial d'IA ; elle fonctionne davantage comme une bibliothèque qui réalise des copies pour la préservation et la découverte. Les bibliothèques et archives ont depuis longtemps été traitées différemment en droit d'auteur lorsque leurs copies servent la recherche, l'accès et l'intérêt public. Les dommages collatéraux des blocages techniques généralisés se traduisent par une perte progressive d'un registre probatoire dont dépendent de nombreuses personnes pour comprendre l'évolution du reportage et du discours public.
Retirer la capacité de l'Archive à préserver les actualités crée des coûts à long terme qui dépassent largement le différend immédiat sur les données d'entraînement des IA. Les journalistes perdront une source stable pour sourcer et vérifier des affirmations historiques, les chercheurs feront face à des lacunes dans les études longitudinales sur les médias, et les tribunaux pourraient se retrouver sans archives contemporaines des publications en ligne. Plutôt que d'ériger des barrières techniques, les éditeurs et les archives devraient explorer des accords ciblés qui protègent les intérêts commerciaux sans effacer le registre public.
Principales implications
- Registre historique en danger : Bloquer les robots d'archivage supprime les seules captures indépendantes de nombreuses pages d'actualité.
- Remède mal placé : Les blocages techniques ciblent la préservation à but non lucratif, pas les constructeurs commerciaux de modèles.
- Frictions juridiques et politiques : Les procès en cours sur l'entraînement des IA pourraient décider des normes d'accès, mais la perte d'archives intermédiaire est irréversible.
- Besoin de solutions : Des accès négociés, des embargo sélectifs et des clarifications légales pourraient équilibrer les droits et la préservation.
Restez connecté et surfez en toute sécurité avec Doppler VPN.
Sources:
Prêt à protéger votre vie privée ?
Téléchargez Doppler VPN et commencez à naviguer en toute sécurité dès aujourd'hui.

