
Некоммерческий Центр безопасности искусственного интеллекта (CAIS) и компания Scale AI, предоставляющая ряд услуг по разметке данных и разработке искусственного интеллекта, выпустили сложный новый стандарт для передовых систем искусственного интеллекта.
Созданный для проверки Humanity’s Last Exam включает тысячи вопросов, собранных через массового опроса, касающихся таких предметов, как математика, гуманитарные науки и естественные науки. Чтобы сделать оценку более сложной, вопросы представлены в нескольких форматах, включая форматы с диаграммами и изображениями.
По предварительному исследованию ни одна из общедоступных флагманских систем искусственного интеллекта не смогла набрать более 10% на Humanity’s Last Exam.
CAIS и Scale AI планируют открыть стандарт для исследовательского сообщества, чтобы исследователи могли “погрузиться в разнообразие” и оценить новые модели искусственного интеллекта.