
Anthropic использовал Pokémon для тестирования своей новейшей модели искусственного интеллекта. Да, правда.
В опубликованном в понедельник блоге Anthropic сообщила, что она тестировала свою последнюю модель, Claude 3.7 Sonnet, на классической игре для Game Boy Pokémon Red. Компания оснастила модель базовой памятью, экранным пиксельным вводом и вызовами функций для нажатия кнопок и навигации по экрану, позволяя ей непрерывно играть в Pokémon.
Уникальной особенностью Claude 3.7 Sonnet является его способность к "расширенному мышлению." Как у o3-mini от OpenAI и R1 от DeepSeek, Claude 3.7 Sonnet может "рассуждать" над сложными задачами, применяя больше вычислений и тратя больше времени.
Это пригодилось в Pokémon Red, по-видимому.
По сравнению с предыдущей версией Claude, Claude 3.0 Sonnet, который не смог покинуть дом в Pallet Town, где начинается история, Claude 3.7 Sonnet успешно сразился с тремя лидерами гимов Pokémon и выиграл их знаки.

Теперь не совсем ясно, сколько вычислений потребовалось Claude 3.7 Sonnet для достижения этих рубежей, и сколько времени заняло каждое. Anthropic только сказала, что модель выполнила 35 000 действий, чтобы достичь последнего лидера гима, Surge.
Наверняка скоро какой-нибудь предприимчивый разработчик это узнает.
Pokémon Red скорее игрушечный тест, чем что-то еще. Однако имеется долгая история использования игр для тестирования искусственного интеллекта. Только за последние несколько месяцев появилось несколько новых приложений и платформ для проверки способностей моделей по игре на таких играх, как Street Fighter и Pictionary.