На этой неделе в области искусственного интеллекта: Может быть, нам стоит временно игнорировать показатели производительности ИИ

Добро пожаловать в регулярную новостную рассылку о искусственном интеллекте от TechCrunch! Мы уходим на перерыв на некоторое время, но вы можете найти всю нашу информацию об искусственном интеллекте, включая мои колонки, наш анализ ежедневных событий и срочные новости на сайте TechCrunch. Если вы хотите получить эти и другие истории в своем почтовом ящике каждый день, подпишитесь на наши ежедневные новостные рассылки здесь.

На этой неделе стартап по искусственному интеллекту миллиардера Элона Маска, xAI, представил свою новейшую флагманскую модель искусственного интеллекта, Grok 3, которая приводит в движение Grok-приложения чат-ботов компании. Обученная на около 200 000 GPU, модель обгоняет ряд других ведущих моделей, включая от OpenAI, по показателям производительности в математике, программировании и многом другом.

Но что на самом деле говорят эти показатели производительности?

Здесь, на ТС, мы часто с неохотой сообщаем данные о производительности, поскольку это один из немногих (относительно) стандартизированных способов, которым индустрия искусственного интеллекта измеряет улучшения моделей. Популярные показатели производительности в области искусственного интеллекта обычно тестируются на эзотерических знаниях и предоставляют агрегированные оценки, которые плохо коррелируют с профессионализмом в задачах, которые большинству людей важны.

Как указал профессор Уортонской школы Этан Моллик в ряде сообщений на X после анонса Grok 3 в понедельник, существует «настоятельная необходимость в лучших наборах тестов и независимых тестировочных органах». Как подчеркнул Моллик, компании по производству искусственного интеллекта чаще всего предоставляют результаты тестов самостоятельно, что делает эти результаты еще более трудными для принятия на веру.

«Публичные производственные нормы одновременно и мертворожденны и насыщены, оставляя много тестирования ИИ как рецензии на еду, основанной на вкусе», - пишет Моллик. «Если искусственный интеллект критичен для работы, нам нужно больше».

Существует целый ряд независимых тестов и организаций, предлагающих новые показатели производительности для искусственного интеллекта, но их относительное значение далеко не решено в индустрии. Некоторые комментаторы и эксперты в области искусственного интеллекта предлагают согласовать показатели производительности с экономическим воздействием, чтобы обеспечить их полезность, в то время как другие аргументируют, что признание и полезность - это конечные показатели.

Этот дебат мог бы длиться до самого конца времени. Возможно, вместо этого мы должны, как предписывает пользователь X Рун, просто обратить меньше внимания на новые модели и показатели производительности, за исключением основных технических прорывов в области искусственного интеллекта. Для нашего коллективного здравомыслия, это может быть не самая плохая идея, даже если это вызывает некий искаженный страх пропуска возможностей в области искусственного интеллекта.

Как упоминалось выше, на этой неделе в области искусственного интеллекта мы уходим на перерыв. Спасибо вам, читатели, за то, что вы были с нами на этом аттракционе. До следующего раза.

Новости

Источник изображения: Натан Лэйн / Блумберг / Getty Images

OpenAI пытается «разцензурить» ChatGPT: Макс написал о том, как OpenAI меняет свой подход к разработке искусственного интеллекта, чтобы явно принять «интеллектуальную свободу», независимо от того, насколько сложной или спорной может быть тема.

Новый стартап Миры: Бывший технический директор OpenAI Мира Мурати со своим новым стартапом, Thinking Machines Lab, намерен создать инструменты для того чтобы «привлечь искусственный интеллект для реализации уникальных потребностей и целей [людей]».

Grok 3 приближается: Стартап по искусственному интеллекту Элона Маска, xAI, выпустил свою новую флагманскую модель искусственного интеллекта, Grok 3, и представил новые возможности для приложений Grok для iOS и веб.

Очень лама-конференция: Meta проведет свою первую конференцию разработчиков, посвященную генеративному искусственному интеллекту, в этом весной. Конференция, названная LlamaCon в честь семейства метких моделей искусственного интеллекта компании Meta, запланирована на 29 апреля.

ИИ и цифровая суверенность Европы: Пол профилировал OpenEuroLLM, сотрудничество между около 20 организациями, чтобы создать «серию основных моделей для прозрачного искусственного интеллекта в Европе», сохраняя «лингвистическое и культурное разнообразие» всех языков ЕС.

Исследовательская статья недели

Источник изображения: Якуб Порзыцки / NurPhoto / Getty Images

Исследователи OpenAI создали новый показатель производительности искусственного интеллекта, SWE-Lancer, который ставит своей целью оценить программистские способности мощных систем искусственного интеллекта. Показатель состоит из более чем 1400 фрилансерских заданий по программному обеспечению, которые охватывают от исправлений ошибок и развертывания новых функций до технических предложений уровня менеджера.

По мнению OpenAI, лучшая модель искусственного интеллекта, Claude 3.5 Sonnet от Anthropic, набирает 40,3% по общему показателю SWE-Lancer, что указывает на то, что у искусственного интеллекта еще долгий путь. Следует отметить, что исследователи не проводили оценку новых моделей, таких как o3-mini от OpenAI или R1 китайской компании DeepSeek.

Модель недели

Китайская компания по искусственному интеллекту под названием Stepfun выпустила «открытую» модель искусственного интеллекта, Step-Audio, которая способна понимать и генерировать речь на нескольких языках. Step-Audio поддерживает китайский, английский и японский языки и позволяет пользователям настраивать эмоции и даже диалект синтетического аудио, которое оно создает, включая пение.

Stepfun - один из нескольких китайских стартапов по искусственному интеллекту, выпускающих модели под лицензией с разрешением. Основанная в 2023 году, Stepfun, по сообщениям, недавно закрыла раунд финансирования на несколько сотен миллионов долларов от целого ряда инвесторов, включая китайские частные организации по частному капиталу.

Grab bag

Источник изображения: Исследования Nous

Исследовательская группа по искусственному интеллекту Nous Research выпустила то, что они считают одной из первых моделей искусственного интеллекта, объединяющих способности рассуждения и «интуитивные возможности языковых моделей».

Модель DeepHermes-3 Preview может включать и выключать длинные «цепи мыслей» для повышения точности за счет некоторой вычислительной сложности. В режиме «рассуждения» DeepHermes-3 Preview, подобно другим моделям искусственного интеллекта для рассуждения, «думает» дольше для решения более сложных проблем и показывает свой процесс мышления для прихода к ответу.

По сообщениям, Anthropic планирует скоро выпустить архитектурно аналогичную модель, и OpenAI заявил, что такая модель находится на его ближайшем плане.