07 сент. 2025 г.·6 мин чтения

Договоры данных для пайплайнов ИИ, устойчивые к изменениям приложения

Q: Почему `null`, пустые строки и отсутствующие поля так важны?

Они имеют разный смысл, поэтому не смешивайте их. `null` может означать «известно, но пусто», пустая строка — «отправлен пустой текст», а отсутствующее поле — «значение вообще не предоставлено». Опишите правило для каждого случая и придерживайтесь его.

Договоры данных для пайплайнов ИИ фиксируют имена полей, enum-ы и схемы, чтобы обновления приложения перестали ломать подсказки, парсеры и downstream-этапы.

Почему обычные изменения приложения ломают AI-потоки

Большинство изменений приложения выглядят безобидно. Команда переименовывает поле, добавляет новый статус или перестраивает модель данных, чтобы очистить продукт. Приложение по-прежнему работает, тесты проходят, и релиз выходит.

Слой ИИ при этом может сломаться.

Цепочки подсказок зависят от точных имён и структуры. Если подсказка ожидает customer_tier, а продуктовый код теперь шлёт plan, модель не будет жаловаться. Она прочитает неправильное значение или вообще ничего не прочитает, и всё равно вернёт что-то звучащее правдоподобно.

Именно поэтому такие ошибки дорого обходятся. Обычный код часто ломается с видимой ошибкой. Потоки с ИИ ломаются тихо.

Enum-ы создают те же проблемы. Допустим, в приложении были trial, active и canceled, а команда добавляет paused. Если валидатор, классификатор или логика подсказки всё ещё ожидают старый набор, один новый enum может запустить цепочку плохих решений. Записи могут не пройти валидацию, попасть в ветку по умолчанию или быть обработаны как что-то близкое, но неправильное.

Изменения вложенных данных — ещё одна частая проблема. Парсер может искать user.profile.company.name, в то время как приложение теперь хранит это значение под account.org.name. Ничего не падает. Парсер отправляет пустое поле на следующий шаг, а модель заполняет пробел догадкой.

Маленькие команды могут не заметить этого недели. Сводки поддержки становятся чуть хуже. Скоринг лидов дрейфует. Внутренние теги выглядят менее консистентно. Никто не видит явной ошибки, потому что система продолжает выдавать результат.

Именно поэтому контракты важны на границе «приложение→ИИ». Подсказки, валидаторы и парсеры находятся между продуктовым кодом и логикой модели. Когда эта граница меняется без стабильного контракта, обычные продуктовые обновления превращаются в тихие баги ИИ.

Это встречается постоянно в быстрых командах. Приложение эволюционирует быстро, а ИИ-сторона всё ещё зависит от вчерашних имён полей. Двухминутный рефактор в приложении может создать дни уборки в пайплайне.

Что исправляет договор данных

Шаги ИИ часто ломаются из-за маленьких, скучных причин. Команда переименовывает plan_type в subscription, меняет pro на professional или превращает число в текст для нового экрана. Приложение всё ещё работает, но цепочка подсказок начинает читать не то, пропускать ветку или выдавать менее качественный результат.

Договор данных останавливает этот дрейф на одной границе. Он говорит: у этой задачи есть эти поля, с этими типами, с этими допустимыми значениями. Всё, что находится позади этой линии, может меняться. Всё, что после неё, продолжает видеть одну и ту же форму.

Эта граница важна, потому что продуктовый код меняется всё время. Команды рефакторят модели, разбивают таблицы, объединяют состояния и чистят старые имена. Если подсказки читают внутренние данные приложения напрямую, каждый рефактор может превратиться в баг ИИ.

Решение простое. Поставьте небольшой адаптер между продуктовым кодом и шагом ИИ. Адаптер мапит то, что ваше приложение использует сегодня, в одну фиксированную схему, которую подсказка читает каждый раз.

Заморозьте части, которые наиболее влияют на модель:

имена полей
типы, такие как string, number, boolean или date
значения enum-ов, например trial, active, paused
какие поля обязательны, а какие — опциональны

Подсказки работают лучше при последовательности. Если один рабочий поток видит customer_plan, другой видит tier, а третий — package, человек обычно сможет угадать смысл. Подсказка часто не сможет. Даже безобидное переименование может снизить надёжность.

Enum-ы требуют дополнительной заботы. Если один сервис меняет cancelled на canceled, downstream-классификатор может тихо пропускать этот кейс. Это хуже, чем падение, потому что никто сразу не замечает — просто точность выводов снижается.

Договор также защищает шаги ИИ от внутренних изменений модели. Ваше приложение может перейти от user_id к account_id или разбить одно состояние на три. Сторона ИИ не должна об этом заботиться, если только вы сознательно не решите изменить контракт.

Когда изменение действительно нужно, используйте версионирование схем вместо тихих правок. Это делает разрыв явным, даёт время обновить подсказки и держит старые потоки в работе, пока новая версия раскатывается.

Что замораживать на границе

Замораживайте форму, которую видит ИИ, а не каждую таблицу и модель внутри приложения. Ваш продукт может продолжать меняться, а цепочка подсказок будет получать один и тот же чистый ввод.

Договор должен фиксировать несколько вещей без места для догадок.

Имена полей и вложенные пути идут первыми. Если ИИ ожидает customer.email, а команда приложения переименовала это в user.primaryEmail, цепочка может сломаться, даже если данные всё ещё есть. Держите одно публичное имя на границе и мапьте внутренние изменения за ним.

Обязательные и опциональные поля тоже должны быть явными. Если shipping_address опционален — укажите это. Не оставляйте модели угадывать, что означает отсутствующее поле.

Значения enum-ов требуют точного написания. Выберите одну форму и придерживайтесь её. paid, pending и failed — нормально. Смешивание in_progress, in-progress и In Progress создаёт мелкие разрывы, которые трудно заметить.

Форматы тоже имеют значение. Используйте один формат даты, один формат денег и один тип ID. Даты в ISO 8601, суммы в целых центах и идентификаторы как строки устраняют множество ошибок парсинга.

Пустые состояния тоже требуют правил. Решите, что означает null, что означает пустая строка, а что означает отсутствующее поле. Эти три случая — не одно и то же, и шаги ИИ часто трактуют их по-разному.

Инструмент поддержки иллюстрирует это просто. Представьте, что он отправляет тикеты в шаг ИИ, который пишет краткое резюме и выбирает приоритет. Если один релиз меняет ticket.createdAt на ticket.opened_at, меняет приоритет high на urgent и иногда шлёт пустые строки вместо null, подсказка может и дальше выполняться, но выдавать худшие результаты. Это как раз тот неприятный тип ошибок, потому что никакой явной ошибки не видно.

Решение намеренно скучное. Добавьте тонкий слой границы, который всегда выводит одну и ту же схему, даже если приложение использует за ним разные имена и форматы.

Используйте один контракт на задачу ИИ

Используйте отдельный контракт для каждой работы модели. Если одна подсказка пишет релизные заметки, а другая сортирует тикеты поддержки, они не должны делить один и тот же полезный груз. У каждой задачи разные входы, а общие полезные нагрузки очень быстро превращаются в путаницу.

Назовите контракт по задаче, а не по таблице или сервису, который произвёл данные. ticket_triage_input понятно. tickets_v2 — нет. Имя задачи подсказывает команде, зачем существует полезная нагрузка и что может меняться без риска.

Держите полезную нагрузку простой и небольшой. Отправляйте только поля, которые влияют на ответ. Модели триажа поддержки могут понадобиться ticket_id, subject, body, language и account_tier. Ему не нужен весь профиль клиента, сырой ответ API или строка из базы с 40 колонками.

Хороший контракт обычно следует нескольким простым правилам:

одна задача — одна схема
только поля, специфичные для задачи
имена, основанные на задаче, а не на слое хранения
предформатированные значения вместо сырых вложенных объектов
полезная нагрузка, которую человек может прочитать за несколько секунд

Это особенно важно, когда несколько систем кормят один и тот же шаг ИИ. Модель, которая создаёт резюме встречи с основателем, должна получать одну стабильную форму входа, даже если заметки пришли из CRM, транскриптов звонков или формы на oleg.is. Контракт защищает шаг ИИ от upstream-хаоса.

Сырые полезные нагрузки причиняют проблемы, потому что тащат поля, которые никто не собирался поддерживать. Подсказка может начать использовать status_label из одного API, а затем упасть, когда другой сервис присылает state. Если вы расплющиваете и переименовываете данные до того, как они попадают к модели, вы устраняете этот риск.

Меньшие контракты тоже проще тестировать. Разработчик может посмотреть один пример JSON и понять, получил ли модель нужное. Если полезная нагрузка растёт каждый спринт, задача, вероятно, слишком широкая. Разбейте её, прежде чем одна раздутый вход начнёт делать пять работ плохо.

Как настроить пошагово

Исправьте хрупкие цепочки подсказок

Преобразуйте один хрупкий рабочий процесс в стабильный поток с понятным контрактом.

Получить помощь

Начните с одного ИИ-потока, который уже доставляет проблемы. Выберите тот, который ломается после небольших продуктовых изменений — например, маршрутизация тикетов поддержки, скоринг лидов или генерация сводок. Не пытайтесь исправить все вызовы модели сразу.

Используйте реальный пример, а не абстрактный. Скопируйте один пример входа из приложения и один пример желаемого вывода от модели. Если в тикете поддержки есть customer_tier, issue_type и language, запишите именно эти поля. Затем определите форму ответа, например priority, assigned_team и reason.

Простая настройка обычно выглядит так:

Напишите контракт как небольшую схему с точными именами полей.
Отметьте каждое поле как обязательное или опциональное.
Заморозьте значения enum-ов и значения по умолчанию.
Валидируйте данные до вызова модели и после него.
Публикуйте новую версию, когда форма должна измениться.

Обязательные и опциональные поля требуют ясных правил. Если customer_id всегда должен существовать — скажите об этом. Если promo_code может быть пустым — отметьте как опциональное. Значения по умолчанию тоже важны. Если отсутствующий language должен стать en, сделайте это явно. Молчаливые допущения причиняют большую часть проблем.

Enum-ы заслуживают особого внимания, потому что цепочки подсказок часто зависят от точных слов. Если priority может быть только low, medium или high, зафиксируйте эти значения. Не позволяйте одной команде переименовать high в urgent без изменения версии. Эта мелкая правка может ломать маршрутизацию, дашборды и последующие подсказки.

Валидация должна происходить дважды. Проверьте вход перед моделью, чтобы плохие данные из приложения не отравили результат. Затем проверьте вывод модели перед использованием в продукте. Если модель вернула urgent вместо high, отвергните или замапьте это по явному правилу.

Здесь контракты перестают быть теорией. Они дают модели стабильную границу, даже когда приложение движется.

Когда вам нужна другая форма, добавьте v2. Держите v1 в работе, пока каждая подсказка, парсер и downstream-задача не перейдут на новую версию. Это требует чуть больше дисциплины, но экономит много тихих сбоев.

Простой пример продукта

Представьте приложение поддержки, которое отправляет каждый новый тикет в шаг ИИ для триажа. Модель читает несколько полей, затем предлагает приоритет, категорию и черновик ответа для агента.

Сначала полезная нагрузка тикета простая. В ней есть ticket_id, customer_name, issue_type и message. Цепочка подсказок ожидает именно эти имена, поэтому триаж работает нормально.

Потом приложение меняется

Позже продуктовая команда чистит схему приложения. Они переименовывают customer_name в full_name, потому что так согласуется с остальной частью продукта. Это кажется безобидным обновлением.

Тем не менее поток ИИ ломается. Подсказка всё ещё просит customer_name, поэтому происходит одно из двух: модель получает пустое значение, или некоторая логика fallback плохо заполняет пробел. Команда может не заметить сразу, потому что система всё ещё работает. Просто корректность сортировки тикетов ухудшилась.

Здесь помогает граница контракта. Вместо того чтобы отправлять сырые данные приложения прямо в цепочку подсказок, приложение шлёт данные через адаптер. Адаптер читает новое поле приложения, full_name, и мапит его на поле контракта customer_name.

Так приложение может меняться, а вход для ИИ остаётся стабильным.

{
  "ticket_id": "T-1042",
  "customer_name": "Maya Chen",
  "issue_type": "billing",
  "message": "I was charged twice for the same plan."
}

Цепочка подсказок продолжает работать, потому что она по-прежнему получает ту форму, для которой была построена. Вы замораживаете границу, а не всё приложение.

Развёртывание новой версии

Позже команда может решить, что customer_name слишком ограничено. Может быть, они захотят full_name везде и новый enum для серьёзности тикета. Они могут опубликовать версию контракта 2, обновить подсказку, протестировать и перевести трафик на новую версию целенаправленно.

Некоторое время обе версии могут сосуществовать. Старые потоки читают версию 1. Новые — версию 2. Когда команда увидит чистые результаты, версия 1 выводится из эксплуатации.

Такой подход скучный, и именно поэтому он работает. Предсказуемые границы держат триаж ИИ стабильным, когда продуктовый код продолжает меняться.

Ошибки, ведущие к тихим сбоям

Проверяйте каждый шаг ИИ

Проверяйте входы до вызова модели и верифицируйте выходы перед использованием продуктом.

Настроить валидацию

Большинство поломок не приводят к падению. Приложение продолжает работать, подсказка всё ещё выполняется, и логи могут выглядеть нормально. Проблему замечают позже, когда модель начинает неправильно помечать записи или оставлять поля пустыми.

Несколько привычек вызывают большинство таких тихих сбоев.

Отправка сырых моделей приложения в ИИ кажется быстрой на первый взгляд, но модели приложения меняются ради хранения, UI, прав доступа и отчётности. Полезная нагрузка ИИ должна быть меньше и стабильнее, чем остальная часть продукта.

Переименование значений enum-ов ради красивого UI рискованно. Если in_progress превращается в Working on it, модель или парсер могут воспринять это как новое состояние, а не старое с более красивым текстом.

Смешение null, пустых строк и отсутствующих полей создаёт краевые случаи, о которых забывают. Выберите одно значение для каждого состояния и держитесь его.

Обновление примеров подсказок без обновления схемы вызывает дрейф. Модель учится по примерам, так что изменённый пример может тихо приучить её возвращать новую форму, даже если ваш код всё ещё ожидает старую.

Релиз изменений контракта без номера версии сильно затрудняет отладку. Когда выходы начинают дрейфовать, вы не понимаете, какой продьюсер и какой консьюмер говорят на разных форматах.

Небольшой пример показывает, как легко это пропустить. Допустим, приложение хранит приоритет поддержки как low, medium и high. Дизайнер меняет UI на Low, Normal и Urgent, и кто-то использует эти метки в полезной нагрузке ИИ. Ничего не падает. Но подсказка всё ещё ожидает medium, так что каждый Normal тикет попадает в путь по умолчанию и обрабатывается медленнее.

Более безопасный паттерн прост: держите один стабильный контракт на границе ИИ. Мапьте изменения приложения в этот контракт до того, как данные попадут в цепочку подсказок, и мапьте результаты обратно после ответа модели.

Если примеры, enum-ы или имена полей меняются — повышайте номер версии. Примеры подсказок — часть контракта, а не безобидный текст.

Проверки перед релизом

Аудит триажа поддержки

Проверьте полезную нагрузку, подсказку и парсер за маршрутизацией тикетов до того, как результаты начнут ухудшаться.

Проверить триаж

Большинство поломок потоков ИИ происходят из-за маленьких изменений полезной нагрузки, а не из-за плохих подсказок. Одно переименованное поле, одно новое значение enum или один странный формат даты могут превратить рабочую цепочку в тихий хаос. Короткий предпродакшн-проверка ловит большинство таких случаев.

Проверьте каждое изменённое поле полезной нагрузки по полю. Если продуктовый код поменял customer_id на account_id, сохраните имя на границе или добавьте чёткое маппирование.

Просмотрите каждый список enum-ов. Новые значения вроде paused, объединённые состояния или удалённые опции часто ломают маршрутизацию, сводки и фильтры.

Протестируйте форматы дат, чисел и идентификаторов. 2026-04-03, 03/04/2026, 3000 и 3,000 не означают одно и то же для каждого парсера.

Запустите старую и новую версии контракта параллельно на одних и тех же записях. Проверьте распарсенный результат, а не только сырой вывод модели.

Парсите реальные примеры выводов до релиза. Стадированные примеры обычно слишком чистые и пропускают «грязные» кейсы.

Используйте реальные примеры, а не выдуманные

Извлеките небольшую выборку из продакшен-подобного трафика, если можете. Включите скучные записи, частичные записи и те, которые раньше причиняли проблемы. Пять грязных примеров часто скажут больше, чем пятьдесят рукописных.

Допустим, в приложении был status: active | trial | canceled, и продуктовая команда добавляет paused. UI может работать в первый день, но классификатор или подсказка могут трактовать paused как неизвестное или, что хуже, как canceled. Пользователи обычно замечают это только после появления неправильных отчётов.

Если вы поддерживаете версионирование схем, тестируйте обе версии в одном запуске и логируйте отличия. Будьте строги в сравнении: оба варианта выдали одинаковые поля? Принял ли парсер оба варианта? Не вернулась ли часть записи в свободный текст из-за несоответствия схемы?

Не релизьте на доверии. Если один реальный пример не парсится — остановитесь и исправьте границу. Десять минут на проверку имён полей и форматов дешевле, чем разбор тихих сбоев после релиза.

Что делать дальше

Выберите один бизнес-поток, который сейчас тратит много времени, и исправьте его первым. Не беритесь сразу за все точки касания ИИ в продукте. Выберите путь, где сломанная цепочка подсказок замедляет людей — например, триаж тикетов поддержки, обогащение лидов или генерация черновиков ответов клиентам.

Напишите контракт до следующего рефактора продукта, который затронет этот поток. Команды часто ждут после переименования или очистки схемы, а затем тратят дни на погоню за тихими сбоями в подсказках, маппингах и оценках. Небольшой контракт, написанный заранее, стоит намного дешевле.

Для большинства команд первый проход может быть простым:

назовите точные входные поля, которые получает шаг ИИ
заморозьте значения enum-ов, от которых зависит подсказка или парсер
определите выходную схему с обязательными и опциональными полями
добавьте номер версии и владельца
держите текст подсказки, схему и тесты в одном ревью

Последний пункт важнее, чем кажется. Если кто-то правит подсказку, но не тест парсера, ревью должно проваливаться. Если кто-то меняет enum в продукте, владелец контракта должен одобрить это до релиза. Один человек не обязан делать всю работу, но один человек должен решать, когда изменение контракта безопасно.

Хорошее правило простое: если в приложении что-то меняется внутренне, граница должна оставаться стабильной, если нет явной причины её ломать. Так контракты остаются полезными. Они дают продукту пространство для изменений, не заставляя каждую цепочку подсказок меняться вместе с ним.

Если ваша команда уже сталкивается с таким дрейфом, Oleg Sotnikov на oleg.is работает со стартапами и малыми компаниями над практическими границами ИИ, версионированием схем и рабочими процессами с приоритетом на ИИ. Иногда короткого внешнего ревью хватает, чтобы заметить имена полей, enum-ы и правила версий, которые нужно зафиксировать.

Часто задаваемые вопросы

Что такое договор данных в пайплайне ИИ?

Договор данных — это фиксированная форма входа и выхода для одной задачи ИИ. Он определяет имена полей, типы, значения enum-ов и какие поля должны существовать, чтобы ваша подсказка и парсер видели одну и ту же структуру, даже если код приложения меняется за адаптером.

Почему небольшое изменение приложения может сломать поток ИИ?

Потому что подсказки и парсеры часто зависят от точных имён и значений. Если приложение переименовало customer_tier в plan или добавило новый статус paused, модель может по-прежнему отвечать, но читать неправильное значение и выдавать менее точный результат без очевидной ошибки.

Что нужно заморозить на границе между приложением и ИИ?

Зафиксируйте форму, которую видит ИИ. Стабилизируйте имена полей, вложенные пути, типы, значения enum-ов, обязательные и опциональные поля и форматы. Даты, деньги, идентификаторы и правила для пустых состояний тоже должны быть предсказуемыми.

Каждой ли задаче ИИ нужен свой контракт?

Да. Одна задача — одна схема. Подсказка для триажа тикетов и подсказка для заметок к выпуску требуют разных входных данных, поэтому общий полезный груз быстро превращается в мешанину и ломается чаще.

Как обращаться с изменениями enum-ов?

Рассматривайте изменения enum-ов как изменение контракта, а не как косметическое изменение интерфейса. Если вы хотите заменить high на urgent или добавить paused, опубликуйте новую версию, обновите подсказку и парсер и протестируйте обе версии на реальных примерах перед развёртыванием.

Почему `null`, пустые строки и отсутствующие поля так важны?

Они имеют разный смысл, поэтому не смешивайте их. null может означать «известно, но пусто», пустая строка — «отправлен пустой текст», а отсутствующее поле — «значение вообще не предоставлено». Опишите правило для каждого случая и придерживайтесь его.

Действительно ли мне нужно версионирование схем для мелких изменений?

Как правило — да. Даже небольшие изменения формы могут вызвать тихой дрейф. Номер версии делает разрыв явным, позволяет старым и новым потокам работать параллельно и значительно облегчает отладку, когда результаты начинают отличаться.

Где должна происходить валидация?

Валидация должна происходить дважды. Проверьте входные данные до вызова модели, чтобы плохие данные из приложения не испортили результат. Затем проверьте вывод модели перед использованием в продукте. Если модель вернула неизвестный enum или потеряла обязательное поле, отвергните ответ или сопоставьте его по явному правилу.

Могу ли я отправлять сырые модели приложения прямо в модель?

Можно, но обычно это создаёт проблемы в будущем. Сырые модели приложения меняются ради хранения, интерфейса, отчётности и прав доступа. Тонкий адаптер, который мапит внутренние данные в небольшую схему, специфичную для задачи, даёт более стабильную границу и упрощает тестирование.

Как начать, не перестраивая все ИИ-потоки сразу?

Начните с одного потока, который уже ломается от небольших изменений продукта — например, триаж поддержки или скоринг лидов. Напишите небольшую схему для этой задачи, добавьте адаптер, заблокируйте значения enum-ов и форматы, затем протестируйте на реальных, «грязных» примерах. Когда этот поток станет стабильным, переходите к следующему.