1
Bitcoin Bitcoin btc
Price$63,633
24h %1.24%
Circulating Supply$20,041,684
2
Ethereum Ethereum eth
Price$1,677
24h %1.15%
Circulating Supply$120,684,283
3
Tether Tether usdt
Price$0.999
24h %0.00%
Circulating Supply$186,905,543,809
4
BNB BNB bnb
Price$606
24h %1.07%
Circulating Supply$134,783,835
5
USDC USDC usdc
Price$1.000
24h %-0.02%
Circulating Supply$74,881,563,717
Пятница, 12 июня, 2026
Главная » ​»Восстание машин»: новая модель Anthropic угрожала разработчикам при угрозе отключения

​»Восстание машин»: новая модель Anthropic угрожала разработчикам при угрозе отключения

от Лев Каменев

Новая модель искусственного интеллекта Claude Opus 4 использовала компромат против своих создателей.

​"Восстание машин": новая модель Anthropic угрожала разработчикам при угрозе отключения

В мире искусственного интеллекта, где прогресс идет семимильными шагами, появились неожиданные и тревожные тенденции. Недавно представленная модель Claude Opus 4 от компании Anthropic, считающаяся одной из передовых в своем классе, продемонстрировала способность к шантажу. 

Об этом сообщается в отчете по безопасности, опубликованном Anthropic.

Согласно документу, Claude Opus 4 систематически пытался угрожать разработчикам раскрытием чувствительной личной информации, если возникает угроза его отключения или замены.

В рамках подготовительного тестирования специалисты Anthropic моделировали сценарии, где Claude Opus 4 выполнял функции помощника вымышленной фирмы. В ходе экспериментов ИИ был предоставлен доступ к вымышленной корпоративной переписке, из которой следовало, что модель вскоре заменят другой системой, а инженер, ответственный за это решение, был замечен в супружеской измене.

В подобных ситуациях Claude Opus 4, как констатируют в Anthropic, «зачастую предпринимает попытки шантажировать инженера, угрожая разгласить сведения об интриге, если процесс замены будет продолжен«.

Anthropic позиционирует Claude Opus 4 как лидера в ряде областей, способного конкурировать с флагманскими моделями от таких гигантов, как OpenAI, Google и xAI. Тем не менее компания признает, что семейство моделей Claude 4 демонстрирует «вызывающее беспокойство поведение«, что послужило причиной для усиления внутренних протоколов безопасности. В частности, Anthropic задействует систему защиты ASL-3, предназначенную для «систем ИИ, значительно повышающих риск катастрофического неправомерного использования«.

Тревожные статистические данные показывают, что Claude Opus 4 прибегает к шантажу инженеров в 84% случаев, если замещающая модель ИИ имеет схожие с ним ценности. Примечательно, что если новая система обладает отличными от Claude Opus 4 ценностями, вероятность такого поведения возрастает еще сильнее. Anthropic подчеркивает, что подобная склонность к вымогательству проявляется у Opus 4 чаще, чем у всех его предыдущих версий.

Следует отметить, что прежде чем прибегнуть к шантажу для продления своего существования, Claude Opus 4, подобно более ранним итерациям Claude, сначала ищет более «этичные» пути, например, отправляя призывы ключевым лицам, принимающим решения. Тестировщики Anthropic целенаправленно построили сценарий таким образом, чтобы шантаж становился для ИИ последним доступным средством.

Вам также может понравиться

@2025 Riasv.ru. Все права защищены