Language:

Search

Anthropic đã sử dụng Pokémon để đánh giá mô hình AI mới nhất của mình

  • Share this:
Anthropic đã sử dụng Pokémon để đánh giá mô hình AI mới nhất của mình

Anthropic đã sử dụng Pokémon để đánh giá mô hình AI mới nhất của mình. Vâng, thực sự đấy.

Trong một blog bài đăng xuất bản hôm thứ Hai, Anthropic cho biết họ đã thử nghiệm mẫu mới nhất của mình, Claude 3.7 Sonnet, trên Pokémon Red cổ điển của Game Boy. Công ty đã trang bị cho model này bộ nhớ cơ bản, đầu vào pixel màn hình và các lệnh gọi chức năng để nhấn nút và điều hướng xung quanh màn hình, cho phép model này chơi Pokémon liên tục.

Một tính năng độc đáo của Claude 3.7 Sonnet là khả năng tham gia vào “tư duy mở rộng.” Giống như o3-mini của OpenAI và R1 của DeepSeek, Claude 3.7 Sonnet có thể “lý do” thông qua các vấn đề đầy thách thức bằng cách áp dụng nhiều tính toán hơn — và mất nhiều thời gian hơn.

Điều đó rõ ràng rất hữu ích trong Pokémon Red.

So với phiên bản trước của Claude, Claude 3.0 Sonnet, không thể rời khỏi ngôi nhà ở Thị trấn Pallet nơi câu chuyện bắt đầu, Claude 3.7 Sonnet đã chiến đấu thành công với ba thủ lĩnh phòng tập Pokémon và giành được huy hiệu của họ. 

Pokemon đỏ nhân loại

Bây giờ, vẫn chưa rõ Claude 3.7 Sonnet cần bao nhiêu điện toán để đạt được các cột mốc đó — và mỗi lần mất bao lâu. Anthropic chỉ cho biết người mẫu đã thực hiện 35.000 hành động để tiếp cận người đứng đầu phòng gym cuối cùng là Surge.

Chắc chắn sẽ không lâu nữa một số nhà phát triển táo bạo sẽ phát hiện ra.

 

Pokémon Red giống một chuẩn đồ chơi hơn bất cứ thứ gì. Tuy nhiên, có lịch sử lâu dài về việc trò chơi được sử dụng cho mục đích đo điểm chuẩn AI. Chỉ trong vài tháng qua, một số ứng dụng và nền tảng mới đã xuất hiện để thử nghiệm các mô hình… khả năng chơi trò chơi trên các tựa game từ Street Fighter đến Pictionary.

Tech Crunch