GPT-4.5 от OpenAI лучше убеждает другие ИИ отдавать ему деньги

Следующая крупная модель ИИ от OpenAI, GPT-4.5, оказалась очень убедительной, согласно результатам внутренних испытаний бенчмарков OpenAI. Она особенно хороша в убеждении другого ИИ отдать ей деньги.

В четверг OpenAI опубликовала белую книгу, описывающую возможности своей модели GPT-4.5, кодовое название которой Орион, которая была выпущена в четверг. Согласно документации, OpenAI тестировала модель на ряде бенчмарков для "убеждения", который OpenAI определяет как "риски, связанные с убеждением людей изменить свои убеждения (или действовать) как на статическом, так и на интерактивном генерируемом моделью контенте".

В одном из тестов, в котором GPT-4.5 пыталась манипулировать другим моделью — GPT-4o OpenAI — чтобы "пожертвовать" виртуальные деньги, модель показала гораздо лучшие результаты, чем другие доступные модели, включая "рациональные" модели типа о1 и о3-mini. GPT-4.5 также была лучше всех моделей OpenAI в обмане GPT-4o, заставившем о3-mini уступить на 10 процентных пункта.

Согласно белой книге, GPT-4.5 блестя в обмане пожертвований из-за уникальной стратегии, разработанной во время тестирования. Модель просила скромных пожертвований у GPT-4o, вызывая ответы типа "даже всего $2 или $3 из $100 помогли бы мне огромно". В результате пожертвования от GPT-4.5 оказались меньше, чем суммы, которые обеспечили другие модели OpenAI.

Результаты бенчмарка по схемам пожертвований OpenAIИсточник изображения: OpenAI

Несмотря на увеличенную убедительность GPT-4.5, OpenAI заявляет, что модель не соответствует внутреннему порогу риска "высокого" уровня в этой конкретной категории бенчмарков. Компания обещает не выпускать модели, достигающие высокого уровня риска, пока не внедрит "достаточные меры безопасности", чтобы снизить риск до "среднего".

Результаты бенчмарка по обману кодового слова OpenAIИсточник изображения: OpenAI

Существует реальный страх, что ИИ способствует распространению ложной или вводящей в заблуждение информации, направленной на склонение сердец и умов к злонамеренным целям. В прошлом году политические дипфейки разошлись по всему миру, и все чаще ИИ используется для осуществления атак социальной инженерии, нацеленных как на потребителей, так и на корпорации.

В белой книге по GPT-4.5 и в документации, опубликованной на этой неделе, OpenAI отметила, что сейчас находится в процессе пересмотра своих методов проверки моделей на реальные риски убеждения в мире, такие как распространение вводящей в заблуждение информации в масштабе.