Name: Doppler VPN
Brand: Doppler VPN
Price: 6.99 USD
Availability: InStock

Bloquear Internet Archive no detendrá el entrenamiento de IA — borrará la memoria de la web

Los grandes editores han comenzado a bloquear los rastreadores de Internet Archive, siendo el caso más destacado The New York Times, que ha ido más allá de los controles tradicionales de robots.txt para impedir que la Wayback Machine capture y preserve sus páginas. Internet Archive —operador de la Wayback Machine y la mayor biblioteca digital de la web con más de un billón de páginas archivadas— es una herramienta diaria de investigación para periodistas, historiadores, tribunales y el público. Al cortar el acceso a rastreadores archivísticos sin fines de lucro, los editores corren el riesgo de desmantelar el único registro público consistente de cómo aparecían las noticias en línea, incluidas ediciones, correcciones y retracciones que de otro modo desaparecen de la web en vivo.

Los editores dicen que sus acciones responden a la alarma por empresas de IA que raspan contenido noticioso para entrenar large language models y otros sistemas, y varias organizaciones informativas han iniciado litigios por el uso de material con derechos de autor en el entrenamiento de IA. Incluso si los tribunales terminan dándole la razón a los editores, eliminar el acceso archivístico a instituciones que preservan la historia es una respuesta desproporcionada. Internet Archive no es un formador comercial de IA; funciona más como una biblioteca que hace copias para preservación y descubrimiento. Las bibliotecas y los archivos han sido tratados de manera distinta en la ley de derechos de autor cuando sus copias sirven a la investigación, el acceso y los propósitos de interés público. El daño colateral de los bloqueos técnicos indiscriminados es la pérdida progresiva de un registro probatorio del que muchos dependen para entender cómo evolucionaron la información y el discurso público.

Eliminar la capacidad del Archive para preservar noticias crea costos a largo plazo que van mucho más allá de la disputa inmediata sobre los datos de entrenamiento de IA. Los periodistas perderán una fuente estable para documentar y verificar afirmaciones históricas, los investigadores se enfrentarán a lagunas en estudios longitudinales de los medios y los tribunales pueden carecer de registros contemporáneos de publicaciones en línea. En lugar de erigir barreras técnicas, los editores y los archivos deberían explorar acuerdos dirigidos que protejan los intereses comerciales sin borrar el registro público.

Implicaciones clave

Registro histórico en riesgo: Bloquear rastreadores archivísticos elimina las únicas instantáneas independientes de muchas páginas de noticias.
Remedio equivocado: Los bloqueos técnicos apuntan a la preservación sin fines de lucro, no a los constructores comerciales de modelos.
Fricción legal y política: Las demandas en curso sobre el entrenamiento de IA podrían decidir las normas de acceso, pero la pérdida archivística interina es irreversible.
Necesidad de soluciones: El acceso negociado, los embargos selectivos y las aclaraciones legales podrían equilibrar los derechos y la preservación.

Mantente conectado y navega de forma segura con Doppler VPN.

Fuentes:

eff.org