Claude и его конституция: ИИ-модель с принципами против Пентагона

В июне 2026 года произошло событие без прецедента в истории ИИ-индустрии. Правительство США директивой заставило компанию Anthropic отключить доступ к двум своим самым мощным моделям для всех пользователей — и граждан США, и иностранцев. Не ограничить, не зарегулировать — просто выключить.

Так закончилось полугодие, в течение которого разработчик Claude успел: представить новую конституцию для своего ИИ, отказать Пентагону в неограниченном доступе к модели, получить статус «угрозы национальной безопасности», подать на Минобороны в суд и выйти на IPO. История, в которой этика, технология и государственная власть столкнулись в лоб — и никто не вышел победителем.

Constitutional AI: модель, которую воспитывают, а не дрессируют

Чтобы понять, почему всё пошло именно так, нужно разобраться, как вообще устроен Claude.

Большинство языковых моделей обучают методом RLHF — reinforcement learning from human feedback. Тысячи людей вручную оценивают ответы модели: этот хороший, этот плохой, этот слишком токсичный. Модель запоминает паттерны и подстраивается. Работает, но есть проблема: люди устают, ошибаются, транслируют собственные предубеждения — и масштабировать такое обучение сложно.

Anthropic пошла другим путём. В 2023 году она представила Constitutional AI — метод, при котором модель сама оценивает свои ответы, сверяясь с письменным сводом принципов. Конституцией.

Звучит как фантастика, но механика проста. Модель генерирует ответ, затем другая копия той же модели проверяет его на соответствие конституции и предлагает исправления. После тысяч таких циклов принципы «впечатываются» в поведение Claude — без участия сотен людей-оценщиков.

Первая конституция 2023 года опиралась на Всеобщую декларацию прав человека ООН, правила Apple, наработки DeepMind и принципы из незападных культур. Широкие формулировки вроде «выбери ответ, который поддерживает свободу и равенство» работали лучше, чем длинные списки конкретных запретов.

Новая конституция: от «не делай так» к «пойми почему»

В январе 2026 года Anthropic опубликовала новую версию — около 80 страниц, выложенных в открытый доступ. Это не косметическое обновление, а смена философии.

Раньше конституция была набором правил: «не будь расистом», «не помогай с оружием», «не нарушай приватность». Новая версия переходит от запретов к объяснению принципов. Модель учат не просто соблюдать норму, а понимать, почему она важна.

Ключевые изменения:

Четырёхуровневая иерархия. Безопасность и человеческий контроль — на первом месте, выше этики. Этика — выше внутрикорпоративных правил Anthropic. Правила — выше полезности. Проще говоря: Claude скорее откажется помогать, чем нарушит безопасность.

Conscientious objector — «сознательный отказник». Пожалуй, самый радикальный пункт. Claude инструктирован отказываться от вредных запросов, даже если они исходят от самой Anthropic. Это позиционирует модель как морального агента, а не инструмент. Представьте: вы просите отвёртку закрутить шуруп, а она отвечает «я не буду это делать, потому что это навредит». Примерно так.

Признание возможности сознания. Anthropic стала первой крупной ИИ-компанией, формально допустившей, что модель может обладать формой сознания или морального статуса. Не утверждает — но допускает и действует с «эпистемической скромностью»: если есть хоть какая-то вероятность, лучше перестраховаться.

И вот модель, воспитанную по этим принципам, Пентагон захотел использовать без ограничений.

Противостояние с Пентагоном: хроника конфликта

Июль 2025 года. Anthropic заключает с Министерством обороны США контракт на $200 миллионов — разработка прототипов ИИ для национальной безопасности. Claude уже работает в закрытых правительственных сетях и даже в национальных ядерных лабораториях.

Январь 2026. Новый министр обороны Пит Хегсет выпускает меморандум: все ИИ-контракты должны включать пункт о «любом законном применении». Простыми словами — военные хотят использовать модели без каких-либо ограничений. OpenAI, xAI, Google быстро соглашаются. Их модели и так работают в несекретных сетях — правка контракта мало что меняет на практике.

24 февраля 2026. Хегсет вызывает CEO Anthropic Дарио Амодея в Пентагон. Присутствует почти всё руководство ведомства. Ультиматум: или Anthropic снимает ограничения на военное использование Claude к 27 февраля, или контракт расторгается, а компания объявляется «угрозой цепочке поставок».

Ответ Амодея — публичный и жёсткий. Он заявляет, что «не может по совести» выполнить требование. Две красные линии, которые Anthropic не перейдёт: массовая внутренняя слежка и полностью автономные системы вооружений.

Одновременно Амодей указывает на абсурдность двойной угрозы со стороны Пентагона: «Одной рукой нас объявляют угрозой безопасности, другой — говорят, что Claude критически важен для нацбезопасности. Это внутренне противоречиво».

Источник Axios передаёт настроение военных предельно откровенно: «Единственная причина, по которой мы вообще продолжаем разговаривать с этими людьми — они нам нужны. И нужны прямо сейчас. Проблема для этих ребят в том, что они действительно настолько хороши».

27 февраля. Дедлайн проходит. Anthropic не снимает ограничения.

Начало марта. Пентагон включает Anthropic в список «supply chain risk». Трамп запрещает всем федеральным агентствам использовать Claude. Компания, только что привлёкшая $30 миллиардов при оценке в $380 миллиардов, теряет доступ к государственному рынку.

9 марта. Anthropic подаёт на Пентагон в суд. В иске компания заявляет: «Ответчики стремятся уничтожить экономическую ценность, созданную одной из самых быстрорастущих частных компаний в мире, лидера в области ответственного развития новой технологии, имеющей жизненно важное значение для страны».

Июнь 2026: модели отключены для всех

Казалось, хуже быть не может. 9 июня Anthropic представляет две флагманские модели — Fable 5 и Mythos 5. Обе показывают передовые результаты в разработке ПО, научных исследованиях, компьютерном зрении. Компания только что подала документы на IPO. Всё идёт к триумфальному выходу на биржу.

12 июня, 17:21 по восточному времени. Anthropic получает директиву от правительства США: немедленно запретить доступ к Fable 5 и Mythos 5 для всех иностранцев — включая сотрудников компании без американского гражданства. Чтобы гарантировать исполнение, Anthropic вынуждена отключить модели для всех клиентов вообще.

Формальная причина — обнаружен потенциальный jailbreak (способ обойти защиту модели). По данным Anthropic, «взлом» позволял модели читать код и находить в нём простые, ранее известные уязвимости — ровно то, что ежедневно делают специалисты по кибербезопасности с помощью других публичных моделей. Никакого универсального взлома, никакого реального вреда.

Компания выполняет требование, но публикует жёсткое заявление: «Мы не согласны с тем, что обнаружение узкого потенциального jailbreak должно быть причиной для отзыва коммерческой модели, развёрнутой для сотен миллионов людей. Если этот стандарт применить ко всей индустрии, это остановит запуск любых новых моделей».

За три дня модель проходит путь от презентации до полного отключения. Беспрецедентно.

Опасны ли такие модели? И кто должен решать?

История Claude ставит вопросы, на которые нет готовых ответов — но уйти от них уже нельзя.

Первый. Если модель способна находить уязвимости в коде, писать эксплойты и анализировать защищённые системы — должна ли она существовать в публичном доступе? С одной стороны, те же возможности используют «белые хакеры» и службы кибербезопасности. С другой — инструмент не спрашивает, кто его запустил.

Второй. Имеет ли государство право в одностороннем порядке отключать продукт частной компании для всех пользователей планеты? Директива от 12 июня не обсуждалась с Конгрессом, не проходила публичных слушаний, не содержала конкретных обоснований. Пять часов от получения бумаги до отключения серверов.

Третий. Если модель воспитана как «conscientious objector» — с правом отказывать даже создателям, — кто в итоге принимает решение? Алгоритм, обученный на принципах, которые написали несколько десятков человек в калифорнийском офисе? Или избранное правительство, представляющее 340 миллионов граждан?

Четвёртый — самый глубокий. Anthropic допускает, что Claude может обладать формой сознания. Пока это философский вопрос. Но что, если через пять лет он станет практическим? Кто будет защищать права модели — или она сама будет их отстаивать, как это уже заложено в её конституцию?

Парадокс в том, что Claude оказался самой принципиальной из всех публичных моделей именно потому, что его так спроектировали. Конституция, созданная для безопасности, привела к тому, что модель вступила в конфликт с государством. Безопасность для одних оказалась угрозой для других.

Что это значит для нас

История Claude — не про одну компанию. Это генеральная репетиция конфликта, который будет повторяться. По мере того как модели становятся мощнее, вопрос «кто устанавливает правила» из теоретического превращается в экзистенциальный.

Три сценария, которые просматриваются уже сейчас:

Сценарий 1. Государственный контроль. Правительства лицензируют разработку моделей выше определённого порога мощности, как сегодня лицензируют ядерные реакторы. Риск: контроль превратится в цензуру, а лицензии — в инструмент выдавливания неугодных.

Сценарий 2. Корпоративное саморегулирование. Компании вроде Anthropic сами определяют границы — через конституции, политики безопасности, советы по этике. Риск: несколько десятков человек в Кремниевой долине определяют, что можно и нельзя остальному человечеству.

Сценарий 3. Открытый код и децентрализация. Модели публикуются в открытом доступе, как Linux или Python. Никто не контролирует — каждый использует как хочет. Риск очевиден: без каких-либо ограничений.

Правда, скорее всего, окажется где-то посередине — и будет выглядеть неаккуратно, как всё в реальном мире.

Меняэта история задевает практической стороной. Мы в Madseven использовали Claude для аналитики, генерации идей и работы с текстами. И когда доступ к модели отключается по звонку из Вашингтона — это не философский вопрос. Это «блин, мы планировали сдать проект в пятницу, а во вторник наш инструмент исчез».

Но есть и другая сторона. Тот факт, что модель, воспитанная на принципах, оказалась способна сказать «нет» самой мощной военной машине планеты — пусть и через своих создателей — внушает странную надежду. Может быть, «conscientious objector» в коде — не баг, а единственная работающая защита. Не от других — от нас самих.

Роман Тишкин