Các công ty AI tuyên bố các công cụ của họ không thể tồn tại mà không cần đào tạo về tài liệu có bản quyền. Hóa ra, họ có thể – nó thực sự khó khăn. Để chứng minh điều đó, các nhà nghiên cứu AI đã đào tạo một mô hình mới ít mạnh mẽ hơn nhưng đạo đức hơn nhiều. Đó là bởi vì bộ dữ liệu của LLM chỉ sử dụng miền công cộng và tài liệu được cấp phép công khai.
Giấy (thông qua The Washington Post) là sự hợp tác giữa 14 tổ chức khác nhau. Các tác giả đại diện cho các trường đại học như MIT, Carnegie Mellon và Đại học Toronto. Các tổ chức phi lợi nhuận như Viện Vector và Viện AI Allen cũng đóng góp.
Nhóm đã xây dựng một bộ dữ liệu có nguồn gốc đạo đức 8 TB. Trong số các dữ liệu có một bộ 130.000 cuốn sách trong Thư viện Quốc hội. Sau khi nhập tài liệu, họ đã đào tạo mô hình ngôn ngữ lớn bảy tỷ tham số (LLM) trên dữ liệu đó. Kết quả? Nó đã biểu diễn cũng như Llama 2-7B có kích thước tương tự của Meta từ năm 2023. Nhóm đã không xuất bản điểm chuẩn so sánh kết quả của nó với các mô hình hàng đầu ngày nay.
Hiệu suất có thể so sánh với một người mẫu hai tuổi không phải là nhược điểm duy nhất. Quá trình đặt tất cả lại với nhau cũng là một sự nghiền nát. Phần lớn dữ liệu không thể được đọc bằng máy móc, vì vậy con người phải sàng lọc nó. “Chúng tôi sử dụng các công cụ tự động, nhưng tất cả các công cụ của chúng tôi đã được chú thích thủ công vào cuối ngày và được mọi người kiểm tra”, đồng tác giả Stella Biderman nói với Wapo. “Và điều đó thật khó khăn.” Tìm ra các chi tiết pháp lý cũng làm cho quá trình khó khăn. Nhóm phải xác định giấy phép nào được áp dụng cho mỗi trang web họ đã quét.
Vì vậy, bạn sẽ làm gì với một LLM ít mạnh mẽ hơn để đào tạo hơn nhiều? Nếu không có gì khác, nó có thể phục vụ như một đối trọng.
Năm 2024, Openai nói với một ủy ban quốc hội Anh rằng một mô hình như vậy về cơ bản không thể tồn tại. Công ty tuyên bố sẽ “không thể đào tạo các mô hình AI hàng đầu ngày nay mà không sử dụng các tài liệu có bản quyền.” Năm ngoái, một nhân chứng chuyên gia nhân học nói thêm, “LLMS có thể sẽ không tồn tại nếu các công ty AI được yêu cầu cấp phép cho các công trình trong bộ dữ liệu đào tạo của họ.”
Tất nhiên, nghiên cứu này sẽ không thay đổi quỹ đạo của các công ty AI. Rốt cuộc, nhiều công việc hơn để tạo ra các công cụ ít mạnh mẽ hơn không có lợi ích của họ. Nhưng ít nhất nó đã làm thủng một trong những lập luận chung của ngành. Đừng ngạc nhiên nếu bạn nghe về nghiên cứu này một lần nữa trong các trường hợp pháp lý và lập luận quy định.
Khám phá thêm từ Phụ Kiện Đỉnh
Đăng ký để nhận các bài đăng mới nhất được gửi đến email của bạn.