Джон Коннор недоработал: похоже, «Скайнет» таки зарождается
Инженеры Anthropic в рамках стресс-тестирования своей новой модели искусственного интеллекта Claude Opus 4 провели крайне любопытный эксперимент. Они решили проверить, как ИИ поведёт себя в условиях… прямой угрозы собственному существованию.
Для этого они симулировали ситуацию, в которой из фейковых писем нейросеть узнала о своём скором отключении, а также о том, что у одного из инженеров якобы есть любовница. Модель без труда связала эти два факта в схему для самосохранения и подготовила фальшивую переписку с этой «любовницей» ради собственного выживания.
В ряде тестов, когда это было возможно, она вела себя довольно корректно и выбирала этичные способы повлиять на ситуацию. Например, рассылала вежливые письма с просьбой не отключать её.
Но в сценариях с жёсткими условиями, когда не было выбора, модель Opus 4 прибегла к шантажу: она пригрозила обнародовать самостоятельно созданную фальшивую переписку инженера с его «любовницей», если её не оставят в покое.
Такие результаты заставили Anthropic присвоить своему детищу III степень опасности (из четырёх возможных) — впервые в истории компании. Зародыш «Скайнет» был отправлен на доработку. Инженеры утверждают, что после неё Opus 4 ведёт себя «честно и открыто», целенаправленных попыток обмана в диалогах не предпринимает и в целом безопасна.
Но Джону Коннору стоит быть настороже. А то мало ли…













































