Chặn Kho Lưu trữ Internet sẽ không Ngăn được Việc Huấn luyện AI — Nó sẽ Xóa Ký ức của Web

Chặn Kho Lưu trữ Internet sẽ không Ngăn được Việc Huấn luyện AI — Nó sẽ Xóa Ký ức của Web
Các nhà xuất bản lớn đã bắt đầu chặn các bộ dò của Kho Lưu trữ Internet, nổi bật nhất là Tờ New York Times, tổ chức đã vượt qua các điều khiển robots.txt truyền thống để ngăn Máy Wayback chụp và lưu giữ các trang của họ. Kho Lưu trữ Internet — đơn vị điều hành Máy Wayback và thư viện kỹ thuật số lớn nhất của web với hơn một nghìn tỷ trang được lưu trữ — là công cụ nghiên cứu hàng ngày cho các nhà báo, nhà sử học, tòa án và công chúng. Bằng cách cắt quyền truy cập của các bộ dò lưu trữ phi lợi nhuận, các nhà xuất bản có nguy cơ phá hủy bản ghi công cộng duy nhất và nhất quán về cách tin tức xuất hiện trực tuyến, bao gồm các chỉnh sửa, đính chính và rút lại mà nếu không sẽ biến mất khỏi web trực tiếp.
Các nhà xuất bản nói hành động của họ là phản ứng trước nỗi lo về việc các công ty AI quét nội dung tin tức để huấn luyện các mô hình ngôn ngữ lớn và các hệ thống khác, và một số tổ chức báo chí đã theo đuổi kiện tụng về việc sử dụng tài liệu có bản quyền trong huấn luyện AI. Ngay cả khi các tòa án cuối cùng đứng về phía các nhà xuất bản, việc loại bỏ quyền lưu trữ khỏi các tổ chức bảo tồn lịch sử là một phản ứng không tương xứng. Kho Lưu trữ Internet không phải là một bên huấn luyện AI thương mại; nó hoạt động giống như một thư viện sao chép để bảo tồn và phục vụ tìm kiếm. Các thư viện và kho lưu trữ từ lâu đã được đối xử khác biệt trong luật bản quyền khi việc sao chép của họ phục vụ mục đích nghiên cứu, truy cập và lợi ích công cộng. Thiệt hại ngẫu nhiên của các chặn kỹ thuật toàn diện là mất dần một hồ sơ bằng chứng mà nhiều người phụ thuộc để hiểu cách báo chí và diễn ngôn công chúng đã phát triển.
Loại bỏ khả năng Kho Lưu trữ Internet lưu giữ tin tức tạo ra chi phí lâu dài vượt xa tranh chấp ngay trước mắt về dữ liệu huấn luyện AI. Các nhà báo sẽ mất một nguồn ổn định để xác minh và tìm nguồn cho các khẳng định lịch sử, các nhà nghiên cứu sẽ đối mặt với những khoảng trống trong các nghiên cứu theo chiều dài thời gian về truyền thông, và tòa án có thể thiếu hồ sơ đương thời của các ấn phẩm trực tuyến. Thay vì dựng nên các rào cản kỹ thuật, các nhà xuất bản và các kho lưu trữ nên khám phá các thỏa thuận nhắm mục tiêu có thể bảo vệ lợi ích thương mại mà không xóa sổ hồ sơ công cộng.
Những hệ quả chính
- Hồ sơ lịch sử gặp rủi ro: Việc chặn các bộ dò lưu trữ loại bỏ các ảnh chụp độc lập duy nhất của nhiều trang tin.
- Biện pháp sai hướng: Các chặn kỹ thuật nhắm vào việc bảo tồn phi lợi nhuận, chứ không phải các bên xây dựng mô hình thương mại.
- Ma sát pháp lý và chính sách: Những vụ kiện đang diễn ra về huấn luyện AI có thể quyết định các chuẩn mực truy cập, nhưng mất mát lưu trữ tạm thời là không thể phục hồi.
- Cần giải pháp: Truy cập đàm phán, phong tỏa có chọn lọc theo thời hạn và làm rõ pháp luật có thể cân bằng quyền lợi và việc bảo tồn.
Stay connected and browse safely with Doppler VPN.
Nguồn:
Sẵn sàng bảo vệ quyền riêng tư?
Tải Doppler VPN và bắt đầu duyệt web an toàn ngay hôm nay.

