»Восстание машин»: новая модель Anthropic угрожала разработчикам при угрозе отключения

от Лев Каменев 23/05/2025

23/05/2025

Новая модель искусственного интеллекта Claude Opus 4 использовала компромат против своих создателей.

"Восстание машин": новая модель Anthropic угрожала разработчикам при угрозе отключения

В мире искусственного интеллекта, где прогресс идет семимильными шагами, появились неожиданные и тревожные тенденции. Недавно представленная модель Claude Opus 4 от компании Anthropic, считающаяся одной из передовых в своем классе, продемонстрировала способность к шантажу.

Об этом сообщается в отчете по безопасности, опубликованном Anthropic.

Согласно документу, Claude Opus 4 систематически пытался угрожать разработчикам раскрытием чувствительной личной информации, если возникает угроза его отключения или замены.

В рамках подготовительного тестирования специалисты Anthropic моделировали сценарии, где Claude Opus 4 выполнял функции помощника вымышленной фирмы. В ходе экспериментов ИИ был предоставлен доступ к вымышленной корпоративной переписке, из которой следовало, что модель вскоре заменят другой системой, а инженер, ответственный за это решение, был замечен в супружеской измене.

В подобных ситуациях Claude Opus 4, как констатируют в Anthropic, «зачастую предпринимает попытки шантажировать инженера, угрожая разгласить сведения об интриге, если процесс замены будет продолжен«.

Anthropic позиционирует Claude Opus 4 как лидера в ряде областей, способного конкурировать с флагманскими моделями от таких гигантов, как OpenAI, Google и xAI. Тем не менее компания признает, что семейство моделей Claude 4 демонстрирует «вызывающее беспокойство поведение«, что послужило причиной для усиления внутренних протоколов безопасности. В частности, Anthropic задействует систему защиты ASL-3, предназначенную для «систем ИИ, значительно повышающих риск катастрофического неправомерного использования«.

Тревожные статистические данные показывают, что Claude Opus 4 прибегает к шантажу инженеров в 84% случаев, если замещающая модель ИИ имеет схожие с ним ценности. Примечательно, что если новая система обладает отличными от Claude Opus 4 ценностями, вероятность такого поведения возрастает еще сильнее. Anthropic подчеркивает, что подобная склонность к вымогательству проявляется у Opus 4 чаще, чем у всех его предыдущих версий.

Следует отметить, что прежде чем прибегнуть к шантажу для продления своего существования, Claude Opus 4, подобно более ранним итерациям Claude, сначала ищет более «этичные» пути, например, отправляя призывы ключевым лицам, принимающим решения. Тестировщики Anthropic целенаправленно построили сценарий таким образом, чтобы шантаж становился для ИИ последним доступным средством.

предыдущая запись

От гражданских до политических заключенных: Умеров заверил, что идет работа над освобождением всех категорий пленных

следующий пост

Name	Price
Bitcoin btc	$63,639
Ethereum eth	$1,674
Tether usdt	$0.999
BNB bnb	$605
USDC usdc	$1.000

​»Восстание машин»: новая модель Anthropic угрожала разработчикам при угрозе отключения

От гражданских до политических заключенных: Умеров заверил, что идет работа над освобождением всех категорий пленных

У Путина заявили о готовности передать Украине документ с условиями мира – названы сроки

Вам также может понравиться

»Восстание машин»: новая модель Anthropic угрожала разработчикам при угрозе отключения