ИИ на подходе к рабочим местам? OpenAI оценивает производительность GPT-5 на уровне экспертов

Компания OpenAI, стремясь продемонстрировать прогресс в разработке общего искусственного интеллекта (ОИИ), представила новый бенчмарк GDPval, предназначенный для сравнения производительности её моделей ИИ с результатами работы профессионалов в различных отраслях. Этот тест, оценивающий способности ИИ в экономически значимых задачах, стал важным шагом на пути к созданию ИИ, способного справляться с широким спектром задач, ранее подвластных только людям.

Согласно данным OpenAI, перспективные модели, такие как GPT-5 и Claude Opus 4.1 от Anthropic, уже демонстрируют результаты, сопоставимые с работой экспертов в своей области. Стоит отметить, что GDPval оценивает лишь отдельные аспекты работы, и пока рано говорить о прямой замене человеческого труда, несмотря на оптимистичные прогнозы некоторых руководителей о скорой «оккупации» рабочих мест ИИ.

В основе GDPval лежат девять ключевых отраслей, вносящих наибольший вклад в ВВП США, таких как здравоохранение, финансы, производство и госуправление. Тестирование охватывает 44 профессии в рамках этих отраслей, от инженеров-программистов до медицинских сестёр и журналистов.

Методология тестирования GDPval-v0 включает в себя сравнение отчётов, подготовленных ИИ, с отчётами, созданными экспертами, с целью выявить лучший результат. Например, инвестиционным банкирам предлагалось разработать конкурентную среду в сфере доставки «последней мили», а затем сравнить свою работу с результатами ИИ. На основе этих сопоставлений вычисляется «процент побед» модели ИИ по каждой из 44 профессий.

Результаты тестирования показали, что усиленная версия GPT-5 (GPT-5-high) была оценена как превосходящая или соответствующая уровню экспертов отрасли в 40,6% случаев. Модель Claude Opus 4.1 от Anthropic продемонстрировала еще более впечатляющие результаты, достигнув аналогичной оценки в 49% задач. OpenAI отмечает, что высокая оценка Claude Opus 4.1 отчасти обусловлена ее способностью создавать визуально привлекательную графику, помимо чисто технической производительности.

Однако, несмотря на впечатляющие результаты, OpenAI подчёркивает, что GDPval не является исчерпывающей оценкой способностей ИИ в реальных рабочих условиях. Тест не учитывает факторы, такие как критическое мышление, эмоциональный интеллект и умение работать в команде, которые остаются важными компонентами успешной профессиональной деятельности. Кроме того, GDPval оценивает лишь отдельные задачи, а не полный спектр обязанностей, выполняемых специалистом.

Интересно, что в тех областях, где результаты ИИ оказались ниже ожидаемых, OpenAI планирует сосредоточить усилия на дальнейшем развитии моделей. Компания ставит перед собой амбициозную цель – создать ИИ, способный превосходить экспертов в каждой из представленных профессий. Это потребует не только совершенствования алгоритмов машинного обучения, но и интеграции новых подходов, позволяющих ИИ лучше понимать контекст и адаптироваться к сложным задачам.

Влияние развития ИИ на рынок труда остаётся предметом дискуссий. С одной стороны, автоматизация рутинных задач может повысить производительность и высвободить время для более творческой и стратегической работы. С другой стороны, существует риск сокращения рабочих мест в определённых секторах экономики. Важно отметить, что развитие ИИ предполагает не только замену человеческого труда, но и создание новых возможностей и профессий, связанных с разработкой, внедрением и обслуживанием ИИ-систем.

OpenAI рассматривает GDPval как инструмент для определения приоритетов в исследованиях и разработках, а также для оценки воздействия ИИ на экономику. Компания надеется, что этот бенчмарк поможет лучше понять возможности и ограничения современных моделей ИИ и направить усилия разработчиков на создание полезных и безопасных технологий, способствующих развитию общества.