Джон Коннор недоработал: похоже, «Скайнет» таки зарождается

Джон Коннор недоработал: похоже, «Скайнет» таки зарождается

Инженеры Anthropic в рамках стресс-тестирования своей новой модели искусственного интеллекта Claude Opus 4 провели крайне любопытный эксперимент. Они решили проверить, как ИИ поведёт себя в условиях… прямой угрозы собственному существованию.

Для этого они симулировали ситуацию, в которой из фейковых писем нейросеть узнала о своём скором отключении, а также о том, что у одного из инженеров якобы есть любовница. Модель без труда связала эти два факта в схему для самосохранения и подготовила фальшивую переписку с этой «любовницей» ради собственного выживания.

В ряде тестов, когда это было возможно, она вела себя довольно корректно и выбирала этичные способы повлиять на ситуацию. Например, рассылала вежливые письма с просьбой не отключать её.

Но в сценариях с жёсткими условиями, когда не было выбора, модель Opus 4 прибегла к шантажу: она пригрозила обнародовать самостоятельно созданную фальшивую переписку инженера с его «любовницей», если её не оставят в покое.

Такие результаты заставили Anthropic присвоить своему детищу III степень опасности (из четырёх возможных) — впервые в истории компании. Зародыш «Скайнет» был отправлен на доработку. Инженеры утверждают, что после неё Opus 4 ведёт себя «честно и открыто», целенаправленных попыток обмана в диалогах не предпринимает и в целом безопасна.

Но Джону Коннору стоит быть настороже. А то мало ли…

ПОДПИСАТЬСЯ Наш чат

Наш Дзен Наш бот