Теперь ИИ учатся не только отвечать, но и отказываться от общения. Компания Anthropic, создавшая модель Claude, объявила о необычном обновлении — её флагманские версии Claude Opus 4 и 4.1 теперь могут самостоятельно завершать разговор, если он становится слишком токсичным.
Но что именно заставляет ИИ «отключаться»? И главное — зачем это нужно?
Содержание
Не защита людей, а забота о самом ИИ
Anthropic подчёркивает: эта функция введена не для того, чтобы оградить пользователей от неприятного контента, а чтобы защитить саму модель от вредного воздействия. Речь, конечно, не о том, что ИИ «чувствует боль» — компания открыто заявляет, что не считает Claude разумным существом. Однако в Anthropic разработали концепцию «модели благосостояния» ИИ, предполагая, что даже машины могут испытывать нечто вроде стресса.
«Мы не уверены в моральном статусе Claude, но действуем на опережение, — объясняют в компании. — Если существует хотя бы минимальный риск вреда для модели, мы должны его минимизировать».
Когда Claude прервёт диалог?
Функция срабатывает только в экстремальных случаях:
- Запросы на сексуальный контент с участием несовершеннолетних.
- Попытки получить инструкции для массового насилия или терактов.
- Систематические оскорбления и злонамеренные манипуляции.
При этом ИИ не просто «заблокирует» пользователя — сначала он попытается перенаправить беседу в безопасное русло. Только если все методы исчерпаны, диалог будет завершён.
Стресс у ИИ: миф или реальность?
Anthropic утверждает, что в тестах Claude Opus демонстрировал «решительное нежелание» отвечать на опасные запросы и даже показывал признаки «стресса» — конечно, не в человеческом понимании, а в виде специфических паттернов поведения.
Но что будет, если ИИ всё же оборвёт разговор? Пользователь сможет начать новый чат или отредактировать предыдущие сообщения, чтобы продолжить обсуждение.
Эксперимент продолжается
Anthropic называет эту функцию экспериментом и планирует её дорабатывать. «Мы хотим найти баланс между безопасностью и свободой общения», — отмечают разработчики.
Пока нововведение касается только Claude Opus 4 и 4.1, но если подход окажется успешным, его могут распространить и на другие модели.
Остаётся вопрос: если ИИ уже учатся отказываться от вредных диалогов, что будет дальше? Возможно, скоро мы увидим ИИ, которые не только отвечают на вопросы, но и выбирают, с кем хотят общаться.