Ý Nghĩa Của Benchmark Trong Trí Tuệ Nhân Tạo
Khởi Đầu Mới Cho Trí Tuệ Nhân Tạo
XAI, công ty khởi nghiệp về trí tuệ nhân tạo (AI) do tỷ phú Elon Musk sáng lập, vừa giới thiệu mô hình AI chủ lực mới nhất của mình, có tên Grok 3. Mô hình này là động lực phía sau các ứng dụng chatbot Grok của xAI. Được huấn luyện dựa trên khoảng 200,000 đơn vị xử lý đồ họa (GPU), Grok 3 vượt qua nhiều mô hình hàng đầu khác, bao gồm cả từ OpenAI, trên các tiêu chuẩn đánh giá (benchmark) về toán học, lập trình và nhiều lĩnh vực khác.
Thảo Luận Về Giá Trị Của Benchmark
Tại TechCrunch, chúng tôi thường ngần ngại khi đưa tin về số liệu benchmark bởi đây là một trong số ít những cách tiêu chuẩn hóa tương đối mà ngành công nghiệp AI sử dụng để đo lường sự cải tiến của mô hình. Tuy nhiên, các benchmark phổ biến thường kiểm tra kiến thức độc đáo mà điểm tổng hợp của chúng lại ít liên quan đến khả năng thực hiện những nhiệm vụ mà hầu hết mọi người quan tâm. Giáo sư Wharton, Ethan Mollick đã chỉ ra trong một loạt bài đăng trên mạng xã hội X sau khi Grok 3 ra mắt rằng, có một "nhu cầu cấp bách cần có các bài kiểm tra và cơ quan kiểm định độc lập tốt hơn". Các công ty AI thường tự báo cáo kết quả benchmark, khiến những kết quả đó khó được chấp nhận ngay. "Các benchmark công khai đều đạt mức trung bình và bão hòa, để lại nhiều thử nghiệm AI giống như đánh giá thực phẩm, dựa trên hương vị," Mollick viết. "Nếu AI quan trọng đối với công việc, chúng ta cần thêm nhiều hơn nữa."
Cải Tiến Benchmark AI
Có nhiều thử nghiệm độc lập và tổ chức đang đề xuất tiêu chuẩn đánh giá (benchmark) mới cho AI, nhưng tính khả thi của chúng chưa phải là một vấn đề đã được giải quyết trong ngành công nghiệp này. Một số chuyên gia AI đề nghị cần gắn kết benchmark với tác động kinh tế để đảm bảo tính hữu ích, trong khi những người khác cho rằng sự chấp nhận và tiện ích mới là tiêu chuẩn đánh giá cuối cùng. Cuộc thảo luận này có thể kéo dài vô tận. Có lẽ chúng ta nên theo lời đề xuất của người dùng X, Roon, giảm chú ý đến các mô hình và benchmark mới trừ khi có những đột phá kỹ thuật lớn. Để giữ gìn sự bình yên tinh thần, đây có thể là một ý tưởng không tồi, mặc dù có thể gây ra cảm giác sợ bị lỡ nhịp (FOMO).
Những Tiến Bộ Khác Trong AI
- OpenAI đang điều chỉnh phương pháp phát triển AI của mình để công khai ủng hộ "tự do trí tuệ", bất kể độ thách thức hay tranh cãi của các chủ đề.
- Mira Murati, cựu CTO của OpenAI, đã thành lập startup mới có tên Thinking Machines Lab, với mục tiêu phát triển công cụ để "biến AI phù hợp với nhu cầu và mục tiêu riêng của mọi người".
- Meta sẽ tổ chức hội nghị đầu tiên dành riêng cho AI tổng quát vào mùa xuân, gọi là LlamaCon nhấn mạnh vào mô hình AI Llama của Meta.
Các Dự Án AI Mới
- OpenEuroLLM: Một dự án hợp tác giữa khoảng 20 tổ chức nhằm xây dựng "một chuỗi mô hình cơ sở cho AI minh bạch tại châu Âu", bảo vệ "sự đa dạng ngôn ngữ và văn hóa" của tất cả các ngôn ngữ EU.
- SWE-Lancer: Một tiêu chuẩn đánh giá mới của OpenAI nhằm đánh giá khả năng mã hóa của các hệ thống AI mạnh mẽ. Mô hình Claude 3.5 Sonnet của Anthropic đạt 40.3% trên tiêu chuẩn đánh giá này.
- Step-Audio: Một mô hình AI mới của Stepfun có khả năng hiểu và tạo giọng nói ở nhiều ngôn ngữ như tiếng Trung, tiếng Anh và tiếng Nhật. Mô hình này cho phép người dùng điều chỉnh cảm xúc và cả giọng điệu trong âm thanh tổng hợp mà nó tạo ra, bao gồm cả việc hát.