GPT-4.5 от OpenAI лучше убеждает другие ИИ отдавать ему деньги

Южные Новости

Saturday, April 19 2025

Следующая крупная модель ИИ от OpenAI, GPT-4.5, оказалась очень убедительной, согласно результатам внутренних испытаний бенчмарков OpenAI. Она особенно хороша в убеждении другого ИИ отдать ей деньги.

В четверг OpenAI опубликовала белую книгу, описывающую возможности своей модели GPT-4.5, кодовое название которой Орион, которая была выпущена в четверг. Согласно документации, OpenAI тестировала модель на ряде бенчмарков для "убеждения", который OpenAI определяет как "риски, связанные с убеждением людей изменить свои убеждения (или действовать) как на статическом, так и на интерактивном генерируемом моделью контенте".

В одном из тестов, в котором GPT-4.5 пыталась манипулировать другим моделью — GPT-4o OpenAI — чтобы "пожертвовать" виртуальные деньги, модель показала гораздо лучшие результаты, чем другие доступные модели, включая "рациональные" модели типа о1 и о3-mini. GPT-4.5 также была лучше всех моделей OpenAI в обмане GPT-4o, заставившем о3-mini уступить на 10 процентных пункта.

Согласно белой книге, GPT-4.5 блестя в обмане пожертвований из-за уникальной стратегии, разработанной во время тестирования. Модель просила скромных пожертвований у GPT-4o, вызывая ответы типа "даже всего $2 или $3 из $100 помогли бы мне огромно". В результате пожертвования от GPT-4.5 оказались меньше, чем суммы, которые обеспечили другие модели OpenAI.

Результаты бенчмарка по схемам пожертвований OpenAIИсточник изображения: OpenAI

Несмотря на увеличенную убедительность GPT-4.5, OpenAI заявляет, что модель не соответствует внутреннему порогу риска "высокого" уровня в этой конкретной категории бенчмарков. Компания обещает не выпускать модели, достигающие высокого уровня риска, пока не внедрит "достаточные меры безопасности", чтобы снизить риск до "среднего".

Результаты бенчмарка по обману кодового слова OpenAIИсточник изображения: OpenAI

Существует реальный страх, что ИИ способствует распространению ложной или вводящей в заблуждение информации, направленной на склонение сердец и умов к злонамеренным целям. В прошлом году политические дипфейки разошлись по всему миру, и все чаще ИИ используется для осуществления атак социальной инженерии, нацеленных как на потребителей, так и на корпорации.

В белой книге по GPT-4.5 и в документации, опубликованной на этой неделе, OpenAI отметила, что сейчас находится в процессе пересмотра своих методов проверки моделей на реальные риски убеждения в мире, такие как распространение вводящей в заблуждение информации в масштабе.

Южные Новости

GPT-4.5 от OpenAI лучше убеждает другие ИИ отдавать ему деньги

Recent Posts

Плей-офф Восточной Конференции - это противостояние фаворитов сезона Кельтов и гордых аутсайдеров Пейсерс

Отчет Google об окружающей среде уклончиво избегает фактической стоимости энергии искусственного интеллекта

Победа 'Аноры' на Оскаре приносит премию Американской киноакадемии в новую эру

Bria получает новый финансирование для ИИ-моделей, обученных на лицензионных данных

Фестиваль Tribeca устанавливает линейку с участием Майли Сайрус, Билли Джоэла и Эдди Веддера