Cộng đồng tình nguyện viên của bách khoa toàn thư trực tuyến Wikipedia bị chia rẽ về cách đối phó với làn sóng nội dung do AI tạo ra và thông tin sai lệch.
Khi trí tuệ nhân tạo tạo sinh (Generative AI) ngày càng ảnh hưởng sâu sắc đến mọi khía cạnh của văn hóa, nhân viên của Wikipedia bị chia rẽ về cách thức vận hành.
Trong bài kêu gọi cộng đồng gần đây của Wikimedia Foundation – tổ chức phi lợi nhuận chịu trách nhiệm duy trì bách khoa toàn thư mở lớn nhất thế giới – xuất hiện sự chia rẽ về việc có nên sử dụng các mô hình ngôn ngữ lớn để tạo nội dung hay không.
Khả năng “bịa đặt” của AI
Trong khi một số người cho rằng các công cụ như ChatGPT có thể giúp tạo và tóm tắt các bài báo, những người khác vẫn tỏ ra dè dặt. Điều đáng lo ngại là nội dung do máy tạo ra phải được cân bằng với rất nhiều đánh giá của con người và các wiki ít được biết đến có thể bị thay bởi nội dung xấu.
Mặc dù các công cụ AI sáng tạo rất hữu ích để viết văn bản giống văn phong của con người, chúng cũng có xu hướng đưa vào thông tin sai lệch, thậm chí trích dẫn các nguồn và bài báo học thuật không tồn tại.
Điều này thường dẫn đến các bản tóm tắt văn bản có vẻ chính xác, nhưng khi kiểm tra kỹ hơn, người ta phát hiện ra rằng chúng hoàn toàn bịa đặt.
Amy Bruckman, Giáo sư danh dự, Phó chủ tịch cấp cao của trường điện toán tương tác tại Viện Công nghệ Georgia cho rằng mô hình ngôn ngữ lớn chỉ tốt khi có khả năng phân biệt thực tế với hư cấu.
“Cách duy nhất của chúng ta là sử dụng [các mô hình ngôn ngữ lớn], nhưng chỉnh sửa nó và nhờ ai đó kiểm tra nguồn”, bà Bruckman, người từng viết sách về Wikipedia nói với Motherboard.
Các nhà nghiên cứu nhanh chóng nhận ra rằng ChatGPT của OpenAI là một kẻ bịa đặt. Đó là điều gây hại cho những sinh viên dựa vào chatbot này để viết bài luận.
Đôi khi nó tự nghĩ ra các bài báo và tác giả của chúng. Những lần khác, công cụ AI ghép tên các học giả ít được biết đến với những học giả giỏi hơn, làm tăng uy tín cho nội dung lên mức tối đa.
OpenAI thậm chí còn nói rằng mô hình này “gây ảo giác” khi nó tạo ra sự thật – một cách lập luận bị chuyên gia AI chỉ trích là trốn tránh trách nhiệm đối với việc công cụ của họ truyền bá thông tin sai lệch.
“Rủi ro đối với Wikipedia là mọi người có thể hạ thấp chất lượng bằng cách đưa vào những thứ mà họ chưa kiểm tra. Tôi không nghĩ có gì sai khi sử dụng nó làm bản nháp, nhưng mọi thứ đều phải được xác minh”, Bruckman nói thêm.
Wikipedia bối rối
Wikimedia Foundation xem xét việc xây dựng các công cụ giúp tình nguyện viên dễ dàng xác định nội dung do máy móc tạo ra. Trong khi đó, Wikipedia đang soạn thảo một quy định giới hạn đối với việc sử dụng các mô hình ngôn ngữ lớn để tạo nội dung.
Dự thảo lưu ý những ai chưa biết rõ rủi ro của các mô hình ngôn ngữ lớn nên tránh sử dụng chúng để tạo nội dung cho Wikipedia, vì nó có thể khiến Wikimedia Foundation phải đối mặt với các vụ kiện phỉ báng và vi phạm bản quyền.
Các mô hình ngôn ngữ lớn này cũng chứa đựng những thành kiến ngầm, thường dẫn đến nội dung sai lệch đối với những nhóm người bị phân biệt đối xử và ít có tiếng nói trong xã hội.
Cộng đồng cũng bị chia rẽ về việc các mô hình ngôn ngữ lớn có được phép huấn luyện bằng nội dung của Wikipedia hay không. Mặc dù truy cập mở là nền tảng nguyên tắc thiết kế của Wikipedia, một số người lo ngại việc thu thập dữ liệu Internet không hạn chế cho phép các công ty như OpenAI khai thác web mở để tạo các bộ dữ liệu thương mại khép kín cho mô hình của họ.
Đặc biệt, vấn đề càng nghiêm trọng nếu bản thân nội dung trên Wikipedia lại do AI xây dựng, tạo ra một vòng lặp thông tin có khả năng sai lệch nếu không được kiểm tra kĩ lưỡng.
Như vậy, việc sử dụng các mô hình ngôn ngữ lớn là cần thiết tuy nhiên cần hiểu rõ no, và kiểm tra thông tin kỹ lưỡng.