Ang Pag-block sa Arkibo ng Internet ay Hindi Pipigilan ang Pagsasanay ng AI — Mabubura Nito ang Memorya ng Web

Ang Pag-block sa Arkibo ng Internet ay Hindi Pipigilan ang Pagsasanay ng AI — Mabubura Nito ang Memorya ng Web
Nagsimulang i-block ng malalaking publisher ang mga crawler ng Arkibo ng Internet, pinakamahalaga ang The New York Times, na lumampas sa tradisyunal na kontrol gamit ang robots.txt para pigilan ang Wayback Machine mula sa pagkuha at pag-preserba ng kanilang mga pahina. Ang Arkibo ng Internet — operator ng Wayback Machine at ang pinakamalaking digital na aklatan ng web na may higit sa isang trilyong in-archive na mga pahina — ay isang pang-araw-araw na kasangkapan sa pananaliksik para sa mga mamamahayag, historyador, korte, at publiko. Sa pagputol ng access sa mga nonprofit archival crawler, nanganganib ang mga publisher na sirain ang tanging pare-parehong pampublikong rekord kung paano lumabas ang balita online, kabilang ang mga edit, pagwawasto, at pag-atras na kung hindi man ay nawawala mula sa live na web.
Sinasabi ng mga publisher na ang kanilang mga aksyon ay tugon sa alarma tungkol sa mga kumpanyang AI na nag-scrape ng nilalaman ng balita para sanayin ang malalaking language model at iba pang sistema, at ilang organisasyon ng balita ang naghain ng mga kaso tungkol sa paggamit ng copyrighted na materyal sa pagsasanay ng AI. Kahit na sa huli ay pumabor ang mga korte sa mga publisher, ang pag-aalis ng archival access mula sa mga institusyong nagpe-preserba ng kasaysayan ay labis na tugon. Ang Arkibo ng Internet ay hindi isang komersyal na trainer ng AI; gumagana ito nang mas katulad ng isang aklatan na gumagawa ng mga kopya para sa preservasyon at pagtuklas. Matagal nang itinuturing na iba ang mga aklatan at archive sa batas ng copyright kapag ang kanilang pagkopya ay nagsisilbi sa pananaliksik, access, at interes-pampubliko. Ang danyos na dulot ng blanket na teknikal na pag-block ay ang unti-unting pagkawala ng isang ebidensiyal na rekord na pinagkakatiwalaan ng marami para maunawaan kung paano nag-evolve ang pag-uulat at pampublikong diskurso.
Ang pag-alis ng kakayahan ng Arkibo na i-preserba ang balita ay lumilikha ng pangmatagalang gastos na lampas sa agarang pagtatalo tungkol sa data ng pagsasanay ng AI. Mawawala sa mga mamamahayag ang isang matibay na pinagkukunan para sa pag-sourced at pag-verify ng mga makasaysayang pahayag, haharapin ng mga mananaliksik ang mga puwang sa mga longitudinal na pag-aaral ng media, at maaaring kulangin ang mga korte sa mga sabayang rekord ng mga online na publikasyon. Sa halip na magtayo ng mga teknikal na hadlang, dapat mag-explore ang mga publisher at archive ng mga target na kasunduan na nagpoprotekta sa komersyal na interes nang hindi binubura ang pampublikong rekord.
Mga Pangunahing Impluwensya
- Nanganganib ang makasaysayang rekord: Ang pag-block sa mga archival crawler ay nag-aalis ng tanging independiyenteng snapshots ng maraming pahina ng balita.
- Mali ang solusyon: Ang mga teknikal na block ay tumatarget sa nonprofit na preservasyon, hindi sa mga komersyal na gumagawa ng modelo.
- Alitan sa legal at patakaran: Ang patuloy na mga kaso tungkol sa pagsasanay ng AI ay maaaring magpasya ng mga pamantayan sa access, ngunit ang pansamantalang pagkawala ng mga archive ay hindi na maibabalik.
- Pangangailangan ng mga solusyon: Ang pinagkasunduang access, selektibong embargo, at paglilinaw sa batas ay maaaring magbalanse ng mga karapatan at preservasyon.
Stay connected and browse safely with Doppler VPN.
Mga Pinagmulan:
Handa ka na bang protektahan ang iyong privacy?
I-download ang Doppler VPN at simulang mag-browse nang ligtas ngayon.

