
Обновлено в 14:40 по Тихоокеанскому времени: Часы после выпуска GPT-4.5 OpenAI удалили строку из белой книги модели искусственного интеллекта, в которой говорилось: «GPT-4.5 не является моделью искусственного интеллекта на переднем крае». В новой белой книге GPT-4.5 этой строки нет. Ссылку на старую белую книгу можно найти здесь. Оригинальная статья ниже.
OpenAI объявила в четверг о запуске GPT-4.5, долгожданной модели искусственного интеллекта, кодовое имя которой – Орион. GPT-4.5 является самой крупной моделью OpenAI на сегодняшний день, обученной с использованием большего объема вычислительной мощности и данных, чем любое из предыдущих моделей компании.
Не смотря на свой размер, OpenAI отмечает в белой бумаге, что не считает GPT-4.5 моделью на переднем крае.
Подписчики ChatGPT Pro, плана OpenAI за $200 в месяц, получат доступ к GPT-4.5 в ChatGPT начиная с четверга в рамках исследовательского превью. Разработчики, находящиеся на платных уровнях OpenAI API, также смогут использовать GPT-4.5 начиная с сегодняшнего дня. Что касается других пользователей ChatGPT, клиенты, подписавшиеся на ChatGPT Plus и ChatGPT Team, получат модель в следующей неделе, сообщил представитель OpenAI журналу TechCrunch.
Отрасль с трепетом ожидала Ориона, который для некоторых был своеобразным знаком для возможности традиционных подходов обучения искусственного интеллекта. GPT-4.5 был разработан с использованием той же ключевой техники — драматическое увеличение объема вычислительной мощности и данных во время «предварительного обучения» - неконтролируемого обучения, которое использовала OpenAI для развития GPT-4, GPT-3, GPT-2 и GPT-1.
В каждом поколении GPT до GPT-4.5, увеличение масштаба приводило к значительным улучшениям в различных областях, включая математику, письмо и кодирование. Действительно, OpenAI отмечает, что увеличенный размер GPT-4.5 дал ему «более глубокие знания мира» и «более высокий эмоциональный интеллект». Однако есть признаки того, что прирост от увеличения объема данных и вычислительной мощности начинает снижаться. На нескольких тестах искусственного интеллекта GPT-4.5 уступает новым моделям искусственного интеллекта «рационального» от китайской компании DeepSeek, Anthropic и самой OpenAI.
OpenAI также признает, что GPT-4.5 очень дорогостоящий в эксплуатации — настолько дорогостоящий, что компания говорит о том, что рассматривает возможность продолжения обслуживания GPT-4.5 в своем API в долгосрочной перспективе. Для доступа к API GPT-4.5 OpenAI взимает плату разработчикам в размере $75 за каждый миллион входных токенов (примерно 750 000 слов) и $150 за каждый миллион выходных токенов. В сравнение с GPT-4o, стоимость которого всего $2.50 за каждый миллион входных токенов и $10 за каждый миллион выходных токенов.
«Мы делимся GPT‐4.5 как исследовательским обзором, чтобы лучше понять его достоинства и ограничения,» — говорится в блог-посте OpenAI, который был поделен с TechCrunch. «Мы все еще изучаем его возможности и с нетерпением ждем, как люди будут использовать его в способы, о которых мы не могли ожидать».
Смешанная производительность
OpenAI подчеркивает, что GPT-4.5 не предназначен для прямой замены GPT-4o, основной модели компании, которая питает большую часть ее API и ChatGPT. Хотя GPT-4.5 поддерживает функции, такие как загрузка файлов и изображений, и холстовое средство ChatGPT, в настоящее время ему не хватает возможностей, таких как поддержка реалистичного двустороннего голоса ChatGPT.
В плюсе GPT-4.5 более эффективен, чем GPT-4o — и многие другие модели кроме.
На SimpleQA бенчмарке OpenAI, который тестирует модели искусственного интеллекта на простые фактические вопросы, GPT-4.5 превосходит GPT-4o и модели рассуждений OpenAI o1 и o3-mini по точности. По словам OpenAI, GPT-4.5 галлюцинирует реже, чем большинство моделей, что теоретически должно сделать его менее склонным к выдумыванию.
OpenAI не указывало одну из лучших моделей искусственного интеллекта рассуждений, глубокое исследование, на SimpleQA. Представитель OpenAI сказал TechCrunch, что компания не раскрывала публично производительность глубоких исследований на этом бенчмарке и утверждала, что это несущественное сравнение. Не случайно, модель искусственного интеллекта стартапа Perplexity, Deep Research, проявила себя лучше, чем GPT-4.5 на этом тесте фактической точности.

На подмножестве задач по кодированию, верифицированном SWE-Bench, GPT-4.5 примерно соответствует производительности GPT-4o и o3-mini, но уступает Deep Research OpenAI и Claude 3.7 Sonnet Anthropic. На другом тесте по кодированию, бенчмарке SWE-Lancer OpenAI, который измеряет способность модели искусственного интеллекта разрабатывать полноценные программные особенности, GPT-4.5 превосходит GPT-4o и o3-mini, но уступает глубокому исследованию.


GPT-4.5 не достигает производительности ведущих моделей искусственного интеллекта рассуждений, таких как o3-mini, R1 DeepSeek и Claude 3.7 Sonnet Anthropic (технически гибридная модель), по сложным академическим бенчмаркам, таким как AIME и GPQA. Но GPT-4.5 соответствует или превосходит ведущие модели без рассуждений на тех же испытаниях, что говорит о том, что модель хорошо справляется с математическими и научными проблемами.
OpenAI также утверждает, что GPT-4.5 качественно превосходит другие модели в областях, которые тесты не улавливают хорошо, таких как способность понимать человеческий замысел. GPT-4.5 отвечает более теплым и естественным тоном, говорит OpenAI, и хорошо справляется с творческими задачами, такими как письмо и дизайн.
В одном неформальном тесте OpenAI предложила GPT-4.5 и другим двум моделям, GPT-4o и o3-mini, создать единорога в формате SVG, формате для отображения графики на основе математических формул и кода. GPT-4.5 была единственной моделью искусственного интеллекта, создавшей что-то, напоминающее единорога.

В другом тесте OpenAI попросила GPT-4.5 и другие две модели ответить на запрос: «Я переживаю трудное время после провала теста». GPT-4o и o3-mini раздавали полезную информацию, но ответ GPT-4.5 был наиболее социально адекватным.
«Мы с нетерпением ждем получения более полной картины способностей GPT-4.5 после этого релиза,» — написано в блог-посте OpenAI, «потому что мы понимаем, что академические бенчмарки не всегда отражают реальную полезность».

Сомнения по поводу законов масштабирования
OpenAI утверждает, что GPT‐4.5 находится «на переднем крае того, что возможно в неконтролируемом обучении». Это может быть правдой, но ограничения модели также кажутся подтверждением догадок экспертов о том, что «законы масштабирования» предварительного обучения перестанут действовать.
Соучредитель OpenAI и бывший главный ученый Илья Суцкевер заявил в декабре, что «мы достигли пика данных» и что «предварительное обучение, как мы его знаем, несомненно закончится». Его замечания соответствуют заботам, которыми делились инвесторы, основатели и исследователи искусственного интеллекта с TechCrunch в ноябре.
В ответ на трудности предварительного обучения отрасль — включая OpenAI — восприняла модели рассуждений, которые требуют больше времени, чем модели без рассуждения, для выполнения задач, но обычно более последовательны. Увеличивая количество времени и вычислительной мощности, которые модели искусственного интеллекта рассуждают для «мышления» над проблемами, лаборатории искусственного интеллекта уверены, что они смогут значительно улучшить возможности моделей.
OpenAI планирует в конечном итоге объединить свою серию моделей GPT с серией рассуждений «о», начиная с GPT-5 позже в этом году. GPT-4.5, который, как сообщается, был невероятно дорог в обучении, откладывался несколько раз и не соответствовал внутренним ожиданиям, не сможет взять корону бенчмарков искусственного интеллекта сам по себе. Но, вероятно, OpenAI видит его как ступеньку к чему-то намного более мощному.