Language:

Search

Cohere tuyên bố mô hình Aya Vision AI mới của họ là tốt nhất

  • Share this:
Cohere tuyên bố mô hình Aya Vision AI mới của họ là tốt nhất

Cohere For AI, phòng thí nghiệm nghiên cứu phi lợi nhuận của công ty khởi nghiệp AI Cohere, tuần này đã phát hành một chương trình “mở” đa phương thức; Mô hình AI, Aya Vision, được phòng thí nghiệm tuyên bố là tốt nhất.

Aya Vision có thể thực hiện các tác vụ như viết chú thích hình ảnh, trả lời câu hỏi về ảnh, dịch văn bản và tạo bản tóm tắt bằng 23 ngôn ngữ chính. Cohere, công ty cũng đang cung cấp Aya Vision miễn phí thông qua WhatsApp, gọi đây là "một bước quan trọng hướng tới việc tạo ra những đột phá kỹ thuật có thể tiếp cận được với các nhà nghiên cứu trên toàn thế giới."

“Mặc dù AI đã đạt được tiến bộ đáng kể nhưng vẫn còn một khoảng cách lớn về mức độ hoạt động của các mô hình trên các ngôn ngữ khác nhau — một điều càng trở nên đáng chú ý hơn trong các tác vụ đa phương thức liên quan đến cả văn bản và hình ảnh,” Cohere đã viết trong một bài đăng trên blog. “Aya Vision đặt mục tiêu rõ ràng là giúp thu hẹp khoảng cách đó.”

Aya Vision có hai loại: Aya Vision 32B và Aya Vision 8B. Cả hai đều phức tạp hơn, Aya Vision 32B, đặt ra một 'biên giới mới', #8221; Cohere cho biết, hiệu suất vượt trội so với các mô hình có kích thước gấp đôi, bao gồm Llama-3.2 90B Vision của Meta's, trên một số tiêu chuẩn hiểu biết trực quan nhất định. Trong khi đó, Aya Vision 8B đạt điểm cao hơn trong một số đánh giá so với các mẫu có kích thước gấp 10 lần, theo Cohere.

Cả hai mô hình đều có sẵn từ nền tảng phát triển AI Hugging Face theo giấy phép Creative Commons 4.0 với Phụ lục sử dụng được chấp nhận của Cohere. Chúng không thể được sử dụng cho các ứng dụng thương mại.

Cohere nói rằng Aya Vision đã được đào tạo bằng cách sử dụng `8220;hồ bơi đa dạng” các bộ dữ liệu tiếng Anh mà phòng thí nghiệm đã dịch và sử dụng để tạo các chú thích tổng hợp. Chú thích, còn được gọi là thẻ hoặc nhãn, giúp mô hình hiểu và diễn giải dữ liệu trong quá trình đào tạo. Ví dụ: chú thích để huấn luyện mô hình nhận dạng hình ảnh có thể ở dạng đánh dấu xung quanh các đối tượng hoặc chú thích đề cập đến từng người, địa điểm hoặc đối tượng được mô tả trong hình ảnh.

Cohere Aya Vision

Mô hình Aya Vision của Cohere có thể thực hiện nhiều nhiệm vụ hiểu biết trực quan. Tín dụng hình ảnh:Cohere

Việc sử dụng chú thích tổng hợp của Cohere — tức là các chú thích do AI tạo ra — đang là xu hướng. Bất chấp những nhược điểm tiềm ẩn, các đối thủ bao gồm OpenAI đang ngày càng tận dụng dữ liệu tổng hợp để đào tạo các mô hình dưới dạng Rất nhiều dữ liệu trong thế giới thực đang cạn kiệt. Công ty nghiên cứu Gartner ước tính rằng 60% dữ liệu được sử dụng cho các dự án AI và phân tích vào năm ngoái là được tạo tổng hợp.

Theo Cohere, việc đào tạo Aya Vision về chú thích tổng hợp đã giúp phòng thí nghiệm sử dụng ít tài nguyên hơn trong khi vẫn đạt được hiệu suất cạnh tranh.

“Điều này thể hiện sự tập trung quan trọng của chúng tôi vào hiệu quả và làm được nhiều việc hơn bằng cách sử dụng ít điện toán hơn” Cohere viết trên blog của mình. “Điều này cũng mang lại sự hỗ trợ lớn hơn cho cộng đồng nghiên cứu, những người thường có quyền truy cập hạn chế hơn vào các tài nguyên máy tính.”

Cùng với Aya Vision, Cohere cũng phát hành một bộ tiêu chuẩn mới, AyaVisionBench, được thiết kế để thăm dò các kỹ năng của người mẫu về “ngôn ngữ tầm nhìn” các tác vụ như xác định sự khác biệt giữa hai hình ảnh và chuyển đổi ảnh chụp màn hình thành mã.

Ngành công nghiệp AI đang ở giữa thời kỳ mà một số người gọi là “khủng hoảng đánh giá” hậu quả của việc phổ biến các điểm chuẩn đưa ra điểm tổng hợp tương quan kém với mức độ thành thạo đối với các nhiệm vụ mà hầu hết người dùng AI quan tâm. Cohere khẳng định rằng AyaVisionBench là một bước tiến tới việc khắc phục vấn đề này, cung cấp một đánh giá “rộng rãi và đầy thách thức” khuôn khổ để đánh giá khả năng hiểu biết đa ngôn ngữ và đa phương thức của mô hình.

Nếu may mắn thì điều đó thực sự đúng như vậy.

“Tập dữ liệu đóng vai trò là chuẩn mực mạnh mẽ để đánh giá các mô hình ngôn ngữ tầm nhìn trong cài đặt đa ngôn ngữ và thế giới thực,” Các nhà nghiên cứu của Cohere đã viết trong một bài đăng trên Hugging Face. “Chúng tôi cung cấp bộ đánh giá này cho cộng đồng nghiên cứu để thúc đẩy các đánh giá đa phương thức đa ngôn ngữ.”

Tech Crunch