Language:

Anthropic đã sử dụng Pokémon để đánh giá mô hình AI mới nhất của mình

By Sumo Tech

Th02 25, 2025

Anthropic đã sử dụng Pokémon để đánh giá mô hình AI mới nhất của mình. Vâng, thực sự đấy.

Trong một blog bài đăng xuất bản hôm thứ Hai, Anthropic cho biết họ đã thử nghiệm mẫu mới nhất của mình, Claude 3.7 Sonnet, trên Pokémon Red cổ điển của Game Boy. Công ty đã trang bị cho model này bộ nhớ cơ bản, đầu vào pixel màn hình và các lệnh gọi chức năng để nhấn nút và điều hướng xung quanh màn hình, cho phép model này chơi Pokémon liên tục.

Một tính năng độc đáo của Claude 3.7 Sonnet là khả năng tham gia vào “tư duy mở rộng.” Giống như o3-mini của OpenAI và R1 của DeepSeek, Claude 3.7 Sonnet có thể “lý do” thông qua các vấn đề đầy thách thức bằng cách áp dụng nhiều tính toán hơn — và mất nhiều thời gian hơn.

Điều đó rõ ràng rất hữu ích trong Pokémon Red.

So với phiên bản trước của Claude, Claude 3.0 Sonnet, không thể rời khỏi ngôi nhà ở Thị trấn Pallet nơi câu chuyện bắt đầu, Claude 3.7 Sonnet đã chiến đấu thành công với ba thủ lĩnh phòng tập Pokémon và giành được huy hiệu của họ.

Pokemon đỏ nhân loại — Bây giờ, vẫn chưa rõ Claude 3.7 Sonnet cần bao nhiêu điện toán để đạt được các cột mốc đó — và mỗi lần mất bao lâu. Anthropic chỉ cho biết người mẫu đã thực hiện 35.000 hành động để tiếp cận người đứng đầu phòng gym cuối cùng là Surge.

Chắc chắn sẽ không lâu nữa một số nhà phát triển táo bạo sẽ phát hiện ra.

Pokémon Red giống một chuẩn đồ chơi hơn bất cứ thứ gì. Tuy nhiên, là có lịch sử lâu dài về việc trò chơi được sử dụng cho mục đích đo điểm chuẩn AI. Chỉ trong vài tháng qua, một số ứng dụng và nền tảng mới đã xuất hiện để thử nghiệm các mô hình… khả năng chơi trò chơi trên các tựa game từ Street Fighter đến Pictionary.

Tech Crunch

Tags: AI Nhân chủng học Benchmark claude 3.7 sonnet Gaming pokemon pokemon đỏ

GPT-5: Bước Nhảy Vọt Của AI và Cách Ứng Dụng (Hướng Dẫn Chi Tiết)

Anthropic đã sử dụng Pokémon để đánh giá mô hình AI mới nhất của mình. Trong một bài blog vào thứ Hai, Anthropic cho biết họ đã thử nghiệm mô hình Claude 3.7 Sonnet trên trò chơi cổ điển Pokémon Red của Game Boy. Mô hình được trang bị bộ...

Th08 08, 2025

NinjaChat AI - Công nghệ mới ra đời này có thể làm những gì?

Th08 03, 2025

Claude 4 Opus Đối Đầu Với Google DeepThink

Th08 03, 2025 66 views
Horizon Alpha - Model Ai bí ẩn mới ra đời của OpenAi

Th08 03, 2025 70 views

Anthropic đã sử dụng Pokémon để đánh giá mô hình AI mới nhất của mình

Related posts

GPT-5: Bước Nhảy Vọt Của AI và Cách Ứng Dụng (Hướng Dẫn Chi Tiết)

NinjaChat AI - Công nghệ mới ra đời này có thể làm những gì?

You might be interested in

Claude 4 Opus Đối Đầu Với Google DeepThink

Horizon Alpha - Model Ai bí ẩn mới ra đời của OpenAi