Dự án OpenEuroLLM và mục tiêu phát triển
Vào tuần trước, các mô hình ngôn ngữ lớn mở (Large Language Models - LLMs) đã chính thức bước vào lộ trình chủ quyền số của châu Âu với một chương trình mới nhằm phát triển loạt mô hình LLM thực sự mở rộng cho tất cả các ngôn ngữ của Liên minh châu Âu. Chương trình này bao gồm 24 ngôn ngữ chính thức của EU hiện tại, cũng như ngôn ngữ của các quốc gia đang thương thảo để gia nhập thị trường EU, chẳng hạn như Albania. Tên của trò chơi này là đảm bảo chuẩn bị cho tương lai. OpenEuroLLM là một dự án hợp tác giữa khoảng 20 tổ chức, do Jan Hajič, một nhà ngôn ngữ học máy tính từ Đại học Charles ở Prague, và Peter Sarlin, CEO kiêm đồng sáng lập phòng thí nghiệm trí tuệ nhân tạo Phần Lan Silo AI, dẫn dắt. Silo AI đã được AMD mua lại năm ngoái với giá 665 triệu USD.
Chủ quyền số và đầu tư cơ sở hạ tầng
Dự án này hoàn toàn phù hợp với mục tiêu lớn hơn của châu Âu nhằm thúc đẩy chủ quyền số, tức là mang các hạ tầng và công cụ quan trọng về gần hơn với quê nhà. Hầu hết các công ty điện toán đám mây khổng lồ đang đầu tư vào cơ sở hạ tầng địa phương để đảm bảo dữ liệu EU ở lại trong EU. Đồng thời, công ty trí tuệ nhân tạo nổi tiếng OpenAI mới đây đã công bố một dịch vụ mới cho phép khách hàng xử lý và lưu trữ dữ liệu tại châu Âu. Ngoài ra, EU gần đây đã ký một thỏa thuận trị giá 11 tỷ USD để tạo ra một hệ thống vệ tinh chủ quyền cạnh tranh với Starlink của Elon Musk.
Ngân sách và những thách thức
Dự án OpenEuroLLM dù rất hấp dẫn nhưng chỉ có ngân sách 37.4 triệu euro để xây dựng các mô hình, trong đó khoảng 20 triệu euro đến từ Chương trình Kỹ thuật số của EU. Số tiền này chỉ là một giọt nước trong đại dương so với số tiền mà các công ty lớn trong ngành trí tuệ nhân tạo đầu tư. Một phần đáng kể trong ngân sách này là dành cho việc tính toán, với sự hợp tác của các trung tâm siêu máy tính EuroHPC tại Tây Ban Nha, Ý, Phần Lan, và Hà Lan. Tuy nhiên, sự tham gia đông đảo của nhiều bên đến từ đa dạng lĩnh vực như học thuật, nghiên cứu và công nghiệp đã dấy lên câu hỏi về khả năng thành công. Anastasia Stasenko, đồng sáng lập công ty LLM Pleias, đã bày tỏ sự nghi ngờ về khả năng một liên danh đa dạng gồm hơn 20 tổ chức có thể có được sự tập trung như một công ty trí tuệ nhân tạo tư nhân bản địa.
Hoàn cảnh và lịch sử của dự án
OpenEuroLLM có có thể coi là bắt đầu từ đầu hoặc đang có một lợi thế, tùy theo cách nhìn. Kể từ năm 2022, Hajič đã điều phối dự án Công nghệ Ngôn ngữ Hiệu suất Cao (High Performance Language Technologies - HPLT), với mục tiêu phát triển dữ liệu, mô hình và quy trình làm việc miễn phí và có thể sử dụng lại bằng cách sử dụng tính toán hiệu suất cao (High Performance Computing - HPC). Dự án này dự kiến sẽ kết thúc vào cuối năm 2025 và có thể được coi là tiền thân của OpenEuroLLM.
Mục tiêu và thách thức của OpenEuroLLM
Dự án OpenEuroLLM có mục tiêu tạo ra một loạt các mô hình nền tảng cho trí tuệ nhân tạo minh bạch tại châu Âu, đồng thời giữ gìn sự đa dạng ngôn ngữ và văn hóa của tất cả các ngôn ngữ EU, hiện tại và tương lai. Các mô hình này có thể bao gồm một mô hình LLM đa ngôn ngữ cốt lõi cho các nhiệm vụ chung đòi hỏi độ chính xác cao, và các phiên bản nhỏ hơn có thể sẽ được tối ưu hóa cho ứng dụng biên nơi hiệu suất và tốc độ quan trọng hơn. Về mặt dữ liệu, công việc từ dự án HPLT sẽ là tài nguyên quý giá, với phiên bản 2.0 của bộ dữ liệu dự kiến ra mắt cách đây bốn tháng. Bộ dữ liệu này đã được huấn luyện trên 4.5 petabyte thu thập từ web và hơn 20 tỷ tài liệu.
Những nghi ngờ và cạnh tranh từ các dự án tương tự
Một dự án tương tự, EuroLLM, đã khiến nhiều người đặt câu hỏi về khả năng mở rộng của OpenEuroLLM. EuroLLM ra mắt mô hình đầu tiên vào tháng 9 và mô hình tiếp theo vào tháng 12, cũng được EU tài trợ, nhằm xây dựng mô hình LLM nguồn mở hỗ trợ 24 ngôn ngữ chính thức của châu Âu.
Kết luận
Hy vọng rằng mặc dù có thể không trở thành mô hình số một, OpenEuroLLM sẽ đóng góp một mô hình chất lượng tốt với toàn bộ thành phần được xây dựng tại châu Âu, điều này sẽ đem lại lợi ích tích cực.