Language:

Search

Tulu 3 445b: Cột Mốc Mới Trong Cuộc Đua AI Mã Nguồn Mở

  • Share this:
Tulu 3 445b: Cột Mốc Mới Trong Cuộc Đua AI Mã Nguồn Mở

Trong một diễn biến đầy bất ngờ, một người chơi mới đã vươn lên dẫn đầu trong cuộc "Chiến tranh AI Thế giới lần thứ I" đang diễn ra. Phiên bản Tulu 3 405b của AllenAI- một mô hình AI mới xuất hiện - đã chứng tỏ sự vượt trội so với cả Deep SeekOpen AI 01 trên một số chỉ số đánh giá quan trọng. 

Cuộc chiến AI này bắt nguồn từ việc Deep Seek, một startup của Trung Quốc, phát hành mô hình AI miễn phí có thể cạnh tranh hoặc thậm chí vượt qua sản phẩm của Open AI, từ đó khơi mào cho một cuộc cạnh tranh gay gắt. Sau đó, Alibaba tham gia với mô hình Quen 2.5, làm tăng thêm sức nóng cho cuộc đua. Microsoft và Open AI cáo buộc Deep Seek ăn cắp công nghệ, tạo thêm kịch tính cho cuộc chiến. Tuy nhiên, với sự xuất hiện của Tulu 3 445b, cuộc cạnh tranh đã đạt đến mức độ mãnh liệt chưa từng có.

Allen Institute for AI (AI2), một tổ chức nghiên cứu phi lợi nhuận có trụ sở tại Seattle, đã trở thành tâm điểm chú ý khi phát hành Tulu 3 405b. Con số "405b" trong tên gọi thể hiện quy mô khổng lồ của 405 tỉ tham số mà mô hình sử dụng, và thông thường, các mô hình lớn hơn thường có khả năng lý luận tốt hơn. Tulu 3 405b được huấn luyện với sự hỗ trợ của 256 GPU chạy song song, cho thấy dự án có quy mô tính toán rất lớn.

announce Tulu 3 405B
 

Điều làm cho Tulu 3 405b đặc biệt không chỉ là kích thước khổng lồ mà còn vì nó hoàn toàn mã nguồn mở, khác với nhiều mô hình mạnh mẽ khác hiện nay. AI2 đã phát hành tất cả thông tin cần thiết để tái tạo mô hình này, từ mã huấn luyện, dữ liệu đến hướng dẫn, một cách tự do và thoáng đãng. Tulu 3 405b được coi là một bước tiến lớn của Mỹ, nhằm chứng minh rằng nước Mỹ vẫn có thể dẫn đầu trong việc xây dựng các hệ thống AI mã nguồn mở hàng đầu mà không phụ thuộc vào các tập đoàn lớn.

github for Tulu
 

Về hiệu năng, Tulu 3 405b đã vượt qua Deep Seek V3 và GPT-40 trong nhiều nhiệm vụ, đặc biệt là trong việc giải toán và tuân theo hướng dẫn chính xác. AI2 đã kiểm tra mô hình này trên các bộ chuẩn phổ biến như popQA, GSM8K và Math More, và Tulu 3 405b đã thể hiện xuất sắc. Mô hình này cũng đã vượt qua các mô hình khác trong các bài kiểm tra về an toàn, điều quan trọng khi xem xét các mô hình mã nguồn mở thường bị chỉ trích vì thiếu các bộ lọc nội dung mạnh mẽ.

Quá trình huấn luyện Tulu 3 405b rất phức tạp, sử dụng các phương pháp huấn luyện tiên tiến như supervised fine-tuning, preference learning và reinforcement learning with verifiable rewards. 

tulu_training_method
 

Mô hình được huấn luyện trên 32 nodes và 256 GPU chạy song song, đòi hỏi sự phối hợp chặt chẽ và sử dụng các khung phân tán chuyên dụng.

So với các mô hình như Deep Seek V3, GPT-40, Llama 3 145b và Nous Hermes 3 45b, Tulu 3 445b đã giữ vững vị thế của mình, chứng minh rằng các mô hình mã nguồn mở có thể cạnh tranh với các mô hình độc quyền của các tập đoàn lớn. Tuy nhiên, GPT-40 vẫn mạnh hơn trên một số nhiệm vụ, nhưng khoảng cách không quá lớn.

tulu_skills
 

Tulu 3 405b cũng nổi bật ở khả năng tuân thủ chính xác các hướng dẫn và giải quyết các nhiệm vụ có kết quả có thể xác minh được. Điều này dẫn đến một mô hình có khả năng tuân theo hướng dẫn một cách chính xác đến từng chi tiết, rất hữu ích cho các đội ngũ cần một mô hình giỏi trong việc tuân thủ các ràng buộc nghiêm ngặt.

Với lập trường mã nguồn mở, Tulu 3 405b là một tuyên bố mạnh mẽ. AI2 đã phát hành mọi thứ từ công thức huấn luyện, bộ dữ liệu sở thích, mẫu chat, hướng dẫn cuối cùng đến mã cho từng bước, cho phép người dùng tái tạo kết quả hoặc thậm chí đẩy mạnh thêm.

Tulu 3 405b có thể được tìm thấy trên Hugging Face, với cả mã nguồn và hướng dẫn sử dụng. 

huggingface_lulu_model-1
 

Đối với những người không chuyên về kỹ thuật, có thể truy cập trang demo web của AI2 để trò chuyện với chatbot Tulu 3 405b.

Tulu_playground
 

Tóm lại, Tulu 3 405b là một cột mốc quan trọng đối với cộng đồng mã nguồn mở, đặc biệt là ở Mỹ. AI2 đã chứng minh rằng việc tiếp tục đẩy mạnh ranh giới của các mô hình ngôn ngữ lớn theo cách công khai là hoàn toàn khả thi, cho phép các nhà nghiên cứu và nhà phát triển có thể tự do thử nghiệm từ mã nguồn mô hình cho đến các bước huấn luyện. Sự xuất hiện của Tulu 3 405b báo hiệu một cuộc cạnh tranh lành mạnh trên thị trường AI toàn cầu, giúp thu hẹp khoảng cách giữa sự mở của giới học thuật và hiệu năng hàng đầu.

Tulu 3 405b đang là tâm điểm của cộng đồng AI, với quy mô khổng lồ, hiệu năng vượt trội trên nhiều nhiệm vụ và hoàn toàn mã nguồn mở. Đây là một cơ hội tuyệt vời để người dùng tự mình thực hiện các thí nghiệm với một mô hình mở mạnh mẽ như vậy.


Leave a comment

Your email address will not be published. Required fields are marked *