
Каждое воскресенье ведущий NPR Уилл Шортц, эксперт по кроссвордам The New York Times, опрашивает тысячи слушателей в долгосрочном сегменте под названием Sunday Puzzle. Хотя задачи созданы так, чтобы их можно было решить без большого предварительного знания, головоломки обычно представляют собой вызов даже для опытных участников.
Поэтому некоторые эксперты считают, что это обещающий способ проверить возможности ИИ в решении проблем.
В новом исследовании команда исследователей из колледжа Уэллсли, О́берлин, Университета Техаса в Остине, Норт-Вестерн и стартапа Cursor создали бенчмарк для ИИ, используя загадки из эпизодов Sunday Puzzle. Команда утверждает, что их тест выявляет удивительные идеи, например, что так называемые модели 'рассуждения' - включая OpenAI’s o1 и другие - иногда 'сдаются' и предоставляют ответы, о которых они знают, что они неверны.
'Мы хотели разработать бенчмарк с задачами, которые люди могут понимать, имея только общие знания,' - сказал Арджун Гуха, студент факультета информатики в Норт-Вестерн и один из соавторов исследования, TechCrunch.
Индустрия ИИ находится в некотором затруднительном положении по поводу создания бенчмарков. Большинство тестов, обычно используемых для оценки моделей ИИ, проверяют навыки, такие как компетентность в вопросах на уровне докторантуры по математике и наукам, которые не являются релевантными для среднего пользователя. Тем временем, многие бенчмарки - даже те, которые были выпущены относительно недавно - быстро приближаются к точке насыщения.
Преимуществом радио-викторины, такой как Sunday Puzzle, является то, что она не проверяет эзотерические знания, и задачи формулируются таким образом, что модели не могут опираться на 'зубрежку' для их решения, пояснил Гуха.
'Я думаю, что то, что делает эти задачи трудными, - это то, что до тех пор, пока вы не решите задачу, очень трудно делать значительный прогресс - это происходит только тогда, когда все внезапно сходится,' - сказал Гуха. 'Для этого требуется объединение интуиции и процесса исключения'.
Конечно, ни один бенчмарк не идеален. Sunday Puzzle сосредоточен на США и только на английском языке. И поскольку викторины общедоступны, возможно, что модели, обученные на них, могут 'обмануть' в каком-то смысле, хотя Гуха говорит, что не видел доказательств этого.
'Каждую неделю выпускаются новые вопросы, и мы можем ожидать, что последние вопросы действительно будут непривычными,' - добавил он. 'Мы намерены поддерживать актуальность бенчмарка и отслеживать, как меняется производительность моделей со временем'.
На бенчмарке исследователей, состоящем примерно из 600 загадок из Sunday Puzzle, модели 'рассуждения', такие как o1 и R1 от DeepSeek, значительно превосходят остальных. Модели 'рассуждения' тщательно проверяют себя перед предоставлением результатов, что помогает им избегать некоторых проблем, с которыми обычно сталкиваются модели ИИ. Компромисс состоит в том, что модели рассуждения около нескольких секунд или минут дольше приходят к решениям.
По крайней мере одна модель, R1 от DeepSeek, предлагает решения, которые она знает неверными, для некоторых вопросов в Sunday Puzzle. R1 скажет дословно 'Я сдаюсь', за которым последует неправильный ответ, выбранный кажется случайным образом - поведение, с которым этот человек, безусловно, может соприкоснуться.
Модели принимают и другие странные решения, например, давая неверный ответ, чтобы сразу отозвать его, попытаться выудить лучший и снова провалиться. Они также застревают в 'думании' надолго и дают бессмысленные объяснения ответов, или они сразу же приходят к правильному ответу, а затем начинают рассматривать альтернативные ответы без очевидной причины.
'На сложных задачах R1 буквально говорит, что он начинает 'раздражаться',' - сказал Гуха. 'Было забавно видеть, как модель эмулирует то, что может сказать человек. Остается увидеть, как 'раздражение' в рассуждениях может повлиять на качество результатов модели'.

Нынешняя наивысшая модель на бенчмарке - o1 с результатом 59%, за ней последует недавно выпущенная модель o3-mini, настроенная на высокий 'рациональный усилия' (47%). (R1 набрал 35 %.) В качестве следующего шага исследователи планируют расширить свое тестирование на дополнительные модели 'рассуждения', что, как они надеются, поможет выявить области, в которых эти модели могут быть улучшены.

'Для того чтобы быть хорошим в рассуждениях, вам не нужно докторское звание, поэтому должно быть возможно создать бенчмарки для рассуждений, которые не требуют знаний на уровне докторантуры,' - сказал Гуха. 'Бенчмарк с широким доступом позволяет более широкому кругу исследователей понимать и анализировать результаты, что, в свою очередь, может привести к лучшим решениям в будущем. Более того, по мере развертывания современных моделей в настройках, которые затрагивают всех, мы считаем, что каждому должно быть доступно интуитивно понимать, на что эти модели способны, а на что нет'.