25 дек. 2024 г.·7 мин чтения

Почему ИИ-пилоты застревают после первой удачной недели

Почему ИИ-пилоты часто застревают из-за неясной ответственности, грязных данных и отсутствия маршрута проверки. Этот план показывает, как вернуть командам темп.

Что идет не так после демо

Первая неделя ИИ-пилота часто кажется простой. Кто-то подсовывает модели несколько чистых примеров, она отвечает быстро, и у команды хватает поводов для восторга. Потом возвращается обычная работа. Приходят реальные файлы. Накопляются крайние случаи. Небольшие задержки начинают иметь значение.

Обычно это падение связано не столько с качеством модели, сколько людям кажется. Демо проходило в контролируемых условиях. Один человек вел сессию, входные данные были аккуратными, и никому не пришлось отвечать на более трудный вопрос: что считать достаточно хорошим результатом, если это касается реальной работы каждый день?

Ранняя похвала может скрыть простые проблемы в процессе. Руководитель отдела продаж видит, что черновики ответов готовы за секунды. Менеджеру поддержки нравятся сводки. Но как только пилот выходит из переговорной, везде всплывают практические вопросы. Кто исправляет плохой промпт? Кто обновляет исходные файлы? Кто проверяет результат, прежде чем он попадет к клиенту?

Если за эти решения никто не отвечает, доверие быстро исчезает. Пилот не рушится в один драматичный момент. Он вязнет в мелких, скучных пробелах, которые никто не предусмотрел.

Обычно снова и снова всплывают три проблемы:

Нет понятного владельца после окончания встречи
Грязные исходные данные, которые на примерах выглядели нормально, но ломаются в реальной работе
Нет маршрута проверки, поэтому никто не знает, кто утверждает, редактирует или отклоняет результат ИИ

Каждая проблема по отдельности выглядит мелкой. Вместе они останавливают работу. Один человек замечает неправильный ответ, но не понимает, кто должен его исправить. Другой загружает устаревшие данные, и качество результата падает. Кто-то хочет использовать черновик, но юристы, операционный отдел или менеджер еще не договорились о шаге проверки. В итоге появляются сомнения, потом задержка, а потом тишина.

Такое часто происходит в небольших командах. Одна удачная неделя создает уверенность, но уверенность — это не процесс. Если у пилота нет владельца, чистых входных данных и маршрута проверки, демо так и остается демо.

Кто отвечает за пилот каждый день

Большинство пилотов теряют темп, потому что за ежедневную работу никто не отвечает. После демо люди предполагают, что инструмент сам будет двигаться дальше. Не будет. Один человек должен вести пилот каждый день, отслеживать блокеры, запрашивать решения и держать команду сфокусированной на следующем полезном шаге.

Этому человеку не обязательно делать все самому. Но у него должно быть достаточно полномочий, чтобы процесс не останавливался. В небольшой компании это может быть основатель, руководитель продукта или операционный менеджер. Если внешний консультант помогает выстроить структуру, кто-то внутри компании все равно должен заниматься ежедневным сопровождением.

Ответственность тоже должна быть распределена по понятным зонам. Один человек решает, что именно должен делать пилот и как измеряется успех. Другой отвечает за техническую часть: промпты, интеграции, логи и исправление данных. Третий человек или небольшая группа утверждает изменения в политике, юридические вопросы, безопасность или действия, связанные с клиентами. Когда команды смешивают эти зоны, базовые вопросы остаются без ответа на несколько дней.

Пример из поддержки хорошо это показывает. Допустим, команда использует ИИ для черновиков ответов. Модель начинает плохо справляться со случаями возврата денег. Кто решает, менять ли промпт, обновлять ли статью в справке или вообще отказаться от ИИ в таком сценарии? Если за это никто не отвечает, пилот замирает, даже если первая неделя прошла отлично.

Команде также нужны сроки реакции на блокеры. Если владелец пилота просит примеры плохих ответов, кто отправит их обратно и когда? Если менеджеру нужно утвердить изменение, это займет четыре часа, один день или три? Размытые сроки убивают импульс быстрее, чем большинство команд ожидает.

Помогает короткая еженедельная сводка. Оставьте только главное:

сколько задач продвинулось дальше
какие блокеры висят дольше 24 часов
качество результатов или частота ошибок
сколько времени команда сэкономила
какие решения все еще ждут согласования

Если владелец может посмотреть это за пять минут, пилот обычно остается живым достаточно долго, чтобы улучшиться.

Грязные исходные данные подрывают доверие

Пилот может несколько дней выглядеть умным, потому что первый набор тестов обычно чистый. Кто-то вручную подбирает хорошие примеры, убирает очевидный мусор и заполняет пропуски. Потом пилот сталкивается с реальными данными и начинает шататься.

Это одна из главных причин, почему ИИ-пилоты замедляются. Модель реагирует не только на промпты. Она реагирует на то, что ей подает команда, а многие команды подают записи, которые друг другу противоречат.

Небольшая команда может тянуть данные из CRM, таблицы, почтового ящика поддержки и инструмента для биллинга. На бумаге это выглядит управляемо. На практике один и тот же клиент может встречаться три раза с разными именами, старым статусом и двумя форматами дат. ИИ не знает, какой записи верить, поэтому начинает угадывать или дает слабый ответ.

Это проявляется просто и очень неприятно. В черновике письма указано не то название компании. В сводке пропущен последний заказ. Оценка лида падает, потому что половина полей пустая. После нескольких промахов люди перестают доверять пилоту и возвращаются к ручной работе.

Прежде чем снова переписывать промпт, посмотрите на входные данные. Составьте список полей, которые использует пилот, откуда берется каждое поле и как часто обновляется этот источник. Проверьте дубликаты, пустые значения, устаревшие записи и несоответствие форматов. Вам не нужен огромный проект по очистке данных. Вам нужен один надежный источник для каждого важного поля.

Если статус аккаунта есть и в CRM, и в биллинговой системе, выберите один источник. Если даты продления лежат в таблице, которую никто не обновляет, перестаньте использовать это поле, пока кто-то не исправит процесс. Если значения не хватает, заранее решите, что должно происходить дальше: пропуск задачи, обращение к человеку или значение по умолчанию. Если дата или номер телефона приходят в неправильном формате, решите, должен ли система исправить их или отклонить.

Часто именно здесь и лежит реальное решение. Модель не ошибается в языке. Процесс ломается из-за непоследовательных входных данных.

Олег Сотников часто помогает командам разбираться именно с этой задачей: сделать ИИ полезным и не добавить хаоса. Во многих случаях самый быстрый прогресс — это не лучшая модель, а более чистая передача данных из источника в рабочий процесс. Когда входные данные становятся стабильными хотя бы на неделю-две, пилот обычно становится намного предсказуемее.

Маршруты проверки помогают пилоту двигаться

Большинство пилотов выглядят хорошо, когда один человек проверяет каждый ответ. Проблемы начинаются тогда, когда инструмент попадает в ежедневную работу, а никто не знает, кто должен проверять результат. Одни ответы уходят слишком рано. Другие зависают надолго. Доверие падает.

Маршрут проверки — это всего лишь простое правило для каждой задачи. Оно говорит, кто проверяет результат, как быстро он отвечает и когда ИИ может действовать самостоятельно. Без этого правила команда заново обсуждает каждый случай с нуля.

Для этого не нужен тяжелый процесс. Нужна понятная схема. Сообщения клиентам, возвраты денег, цены, юридический текст и все, что связано с доступом к аккаунту, обычно требуют проверки человеком. Внутренние заметки, итоги встреч, предложения по тегам и сырые черновики часто не требуют. Для низкорисковых задач нужен быстрый путь, и у каждого маршрута должен быть один назначенный владелец. Если один и тот же материал могут проверить пятеро, в итоге его не проверит никто.

Скорость важна не меньше точности. Если проверка занимает целый день, люди перестают пользоваться инструментом и возвращаются к ручной работе. Лучше проверять только там, где риск действительно есть. Например, команда поддержки может позволить ИИ сортировать обращения и готовить типовые ответы, а человек будет проверять споры по биллингу или все, что звучит сердито, неясно или необычно.

Команде также нужно место, где можно фиксировать ошибки. Держите все максимально просто. Записывайте плохой результат, входные данные, которые его вызвали, кто заметил ошибку и что ее исправило. Через неделю-две начинают проявляться закономерности. Вы можете увидеть, что промпт слишком расплывчатый, исходные данные устарели или проверяющие по-разному понимают, что такое хороший результат.

Так проверка превращается в цикл обучения, а не в узкое горлышко. Без этого люди помнят только последний неловкий промах. С ним команда понимает, где человеческая проверка все еще важна, где можно ослабить контроль и где ИИ может работать быстрее без ущерба.

Как вернуть зависший пилот в нужный ритм

Сделайте ИИ полезным в повседневной работе

Превратите один запутанный ИИ-процесс в систему, которую команда сможет запускать каждую неделю.

Начать с Олегом

Большинству зависших пилотов не нужна более сильная модель. Им нужно меньше неопределенности.

Сократите пилот до такой степени, чтобы один человек мог вести его в обычный вторник без воркшопа, спасательной встречи или героических усилий. Когда команды спрашивают, почему ИИ-пилоты застревают, закономерность обычно одна и та же: протестировали слишком много идей сразу, никто не отвечал за ежедневную работу, а модели пришлось разбирать грязные входные данные.

Сброс обычно выглядит так:

Выберите один сценарий с готовым результатом. «Суммировать отзывы клиентов» — слишком расплывчато. «Превратить обращения в поддержку в еженедельный список проблем с пятью тегами» — уже понятно и легко проверяется.
Назначьте одного владельца и одного запасного. Владелец каждый день ведет пилот, исправляет дрейф промптов и собирает крайние случаи. Запасной не дает всему процессу остановиться после одного пропущенного перехода.
Очистите входные данные для этого одного процесса. Уберите дубликаты, устаревшие поля и наполовину заполненные заметки. Команды часто обвиняют модель в проблеме с данными.
Добавьте короткий маршрут проверки. Один человек должен утверждать, отклонять или редактировать результат, прежде чем он попадет к клиентам или в живую систему.
Отслеживайте три показателя в течение двух недель: сэкономленное время, количество ошибок и случаи, когда люди перестают пользоваться процессом. Если после четвертого дня пилотом перестают пользоваться, это так же важно, как и качество результата.

Небольшая команда может сделать это без большой нагрузки. Допустим, пилот готовит первые ответы на входящие лиды из продаж. Очистите заметки по лидам, назначьте одного владельца в sales ops, попросите менеджера проверить первые 30 черновиков и записывайте, сколько времени занимает каждый ответ до и после ИИ. К концу второй недели вы поймете, экономит ли пилот время или просто создает больше уборки.

Этого достаточно, чтобы решить, что делать дальше. Масштабируйте тот процесс, который выдерживает ежедневное использование. Остальное убирайте.

Реальный пример из небольшой команды

У небольшой SaaS-компании три сотрудника поддержки и один тимлид. Большинство обращений требуют индивидуальной работы, но одна просьба повторяется снова и снова: «Пришлите мой счет» или «Мне нужна квитанция за март». Команда тестирует ИИ только на этом типе обращений, вместо того чтобы сразу бросать на него весь почтовый ящик.

Первые два дня пилот кажется очень простым. Модель за секунды пишет вежливые ответы, а сотрудники только исправляют имена, даты или номера счетов. Все немного экономят время, так что кажется, будто самая сложная часть уже позади.

Потом начинаются промахи. Один клиент купил через реселлера. У другого — ручное ценообразование. Третий уже задавал тот же вопрос на прошлой неделе и теперь ждет не тот же шаблонный ответ, а продолжение. Модель все равно выбирает ответ по умолчанию, потому что исходные данные почти ничем ей не помогают.

Теги непоследовательны. Одни сотрудники пишут «billing», другие — «finance», а у многих обращений вообще нет тега. С заметками еще хуже. Один сотрудник пишет «special terms», другой не оставляет заметку, а предыдущий контекст остается в отдельных ветках. Модель читает все эти неровные входные данные и принимает такие же неровные решения.

Проблема не в языке. Команда подает модели грязные записи и просит ее действовать слишком уверенно.

Решение простое, но требует дисциплины. Команда снова сужает пилот и оставляет только стандартные запросы на копию счета от прямых клиентов с активными аккаунтами. Затем она очищает поля, которые использует модель перед тем, как написать ответ:

один тег для запросов на счет
одно поле заметки для исключений, например аккаунтов реселлеров или налоговых правил
одно короткое резюме от последнего сотрудника
одна очередь проверки перед отправкой любого ответа

Проверка меняется сильнее, чем ожидают большинство команд. Сотрудники не отправляют ответы ИИ прямо клиентам. Лид смотрит черновик, замечает крайние случаи и возвращает это знание в заметки. Через неделю у команды становится меньше неправильных ответов и появляется процесс, который можно расширять без догадок.

Частые ошибки на второй неделе

Укрепите один рабочий процесс

Сократите объем, уберите путаницу и удержите один сценарий в реальной работе.

Улучшить мой процесс

Первая неделя кажется легкой, потому что все видят одно и то же чистое демо. Вторая неделя — другая. Приходят реальные файлы, люди заняты, и появляются крайние случаи.

Одна частая ошибка — запускать пилот без единого владельца. Основатель хочет прогресса, инженер правит промпты, кто-то из операционного отдела загружает файлы, а менеджер дает обратную связь. Никто не отвечает за весь цикл. Когда результат начинает смещаться, каждый чинит только маленький кусок, и пилот постепенно теряет форму.

Следующая ошибка — свалить в один поток сырые выгрузки из CRM, инструмента поддержки, общего диска и таблицы, ожидая, что модель сама все разберет. Она не может исправить все несоответствия самостоятельно. Если одна система пишет «active», другая — «open», а третья оставляет поле пустым, модель начинает гадать. В демо это может выглядеть нормально. В ежедневной работе это становится дорогим.

Проверка тоже исчезает слишком рано. Сильный первый запуск заставляет людей доверять результату больше, чем следовало бы. Потом никто не проверяет странные случаи, никто не фиксирует промахи, и мелкие ошибки расползаются в ответы клиентам, сводки или внутренние заметки.

Следом обычно приходит расползание объема. Вместо того чтобы стабилизировать один процесс, команда добавляет новые задачи, новые промпты и новые источники данных. Теперь уже сложно понять, что именно сломалось.

Скорость тоже может ввести в заблуждение. Если команда измеряет только сэкономленное время, она упускает настоящую проблему. Следите за признаками вроде постоянных ручных исправлений, когда проверяющие снова и снова исправляют одну и ту же ошибку, падения качества на менее частых случаях или накопления правок в промптах без какой-либо очистки исходных данных.

Вторая неделя — это момент, когда пилот либо становится процессом, либо превращается просто в воспоминание о хорошем демо.

Простой чеклист перед масштабированием

Пройдите дальше демо

Получите практичную помощь с внедрением ИИ без лишнего хаоса в команде.

Обсудить с CTO

Прежде чем добавлять больше пользователей, отделов или сценариев, убедитесь, что пилот переживет обычный вторник. Это значит, что один человек может ответить на базовые вопросы, входные данные предсказуемы, а команда понимает, помогает ли инструмент или начинает буксовать.

Используйте это как простой фильтр:

Назначен один владелец, и все знают, кто это.
Входные данные поступают из короткого списка одобренных источников.
Проверяющие понимают, когда они должны смотреть результат.
Команда отслеживает несколько недельных показателей.
Пилот хорошо делает одну повторяющуюся задачу.

Если хотя бы один из этих пунктов шаткий, рост обычно только усиливает хаос. Десять пользователей создают больше путаницы, чем двое. Больше документов означает больше плохих входных данных. Больше результатов означает больше тихих ошибок, если никто не проверяет работу.

Короткий пример помогает понять это лучше. Допустим, команда использует ИИ для черновиков сводок ответов клиентам. Если один человек отвечает за процесс, сводки берутся только из CRM и инструмента поддержки, а лид проверяет все, что помечено как низкая уверенность, команда может улучшать процесс неделя за неделей. Если же сводки еще и собираются из вставленных заметок, старых таблиц и скриншотов в чате, пилот почти сразу начинает дрейфовать.

Планку прохождения держите скучной. Пилот должен работать одинаково каждую неделю, с той же задачей, теми же входными данными и теми же проверками. Именно такой скучный пилот можно безопасно масштабировать.

Что делать дальше

Большинству команд не нужен более крупный пилот. Им нужен более точный.

Запишите три вещи в одну общую заметку: кто каждый день отвечает за пилот, какие данные ИИ может использовать и кто проверяет результаты, прежде чем они попадут в реальную работу. Если эти пункты остаются расплывчатыми, пилот начинает дрейфовать, а люди перестают ему доверять.

Держите правила простыми. Назначьте одного владельца, а не комитет. Перечислите одобренные источники, поля, которые чаще всего ломаются, и минимальный шаг очистки перед тем, как кто-либо запустит промпт или workflow. Затем определите маршрут проверки: кто смотрит результат, на что именно он смотрит и когда работа может двигаться дальше без нового круга обсуждений.

Достаточно короткого чеклиста:

Один человек отвечает за результат каждую неделю
Для одного workflow есть понятные правила ввода
Один проверяющий утверждает рискованные результаты
В одном месте хранятся открытые вопросы и исправления

Сопротивляйтесь желанию слишком рано добавлять второй или третий процесс. Исправьте один workflow, пока команда не сможет запускать его без ежедневной путаницы. Если сводки для отдела продаж по-прежнему опираются на грязные исходные данные, не расширяйтесь пока до обращений в поддержку или проверки договоров. Сначала очистите входные данные. Потом посмотрите, держится ли результат две-три недели в обычной работе.

Короткая еженедельная заметка помогает сильнее, чем большинство команд ожидает. Держите ее краткой. Сообщайте, что запускалось, как часто людям приходилось исправлять результат, что сломалось и что изменилось с прошлой недели. Такая заметка удерживает пилот в честных рамках.

Если ваша команда снова и снова застревает на второй неделе, именно такие операционные задачи Олег Сотников разбирает через oleg.is: ответственность, очистку исходных данных, правила проверки и техническую настройку за ними. Иногда пилоту нужно не больше экспериментов. Ему нужен человек, который подправит процесс, чтобы работа выдерживала жизнь вне демо.

Часто задаваемые вопросы

Почему пилот хорошо смотрелся в демо, но через неделю начал буксовать?

Демо использует чистые входные данные, им управляет один человек, и никому не нужно разбирать ежедневные исключения. В реальной работе появляются устаревшие записи, пустые поля, медленные согласования и крайние случаи. Обычно именно эти пробелы мешают пилоту гораздо сильнее, чем сама модель.

Кто должен каждый день отвечать за ИИ-пилот?

Выберите одного человека внутри компании, который будет вести пилот изо дня в день. Этот человек отслеживает блокеры, запрашивает решения, собирает неудачные результаты и помогает процессу двигаться дальше. Лучше сразу назначить и запасного, чтобы один пропущенный переход не остановил весь пилот.

Нужно ли сначала чистить данные, а уже потом менять промпт?

Да. Сначала проверьте входные данные, а уже потом снова переписывайте промпты. Если имена, статусы, даты или заметки расходятся между инструментами, модель начнет гадать, а команда быстро потеряет доверие.

Что на самом деле значит маршрут проверки?

Маршрут проверки — это простое правило для каждой задачи. Оно говорит команде, кто проверяет результат, как быстро он должен отвечать и когда ИИ может работать без проверки. Так исчезают бесконечные споры по каждому отдельному случаю.

Что стоит измерять в небольшом пилоте?

Не усложняйте. Отслеживайте сэкономленное время, процент ошибок и случаи, когда люди перестают пользоваться процессом, в течение двух недель. Если команда перестает использовать workflow или проверяющий постоянно исправляет одну и ту же проблему, это так же важно, как и скорость.

Когда лучше уменьшить пилот вместо того, чтобы добавлять новые сценарии?

Сокращайте объем, как только команда начинает добавлять новые задачи еще до того, как один workflow работает надежно. Если пилот не переживает обычный вторник с понятными входными данными и одним владельцем, расширять его пока рано.

Исправит ли более хорошая модель проблемы второй недели?

Обычно нет. Более сильная модель может немного помочь на краях, но она не решит неясную ответственность, плохие исходные данные или отсутствие правил проверки. Сначала приведите в порядок процесс, а потом уже смотрите, ограничивает ли вас модель.

Как быстро должны отвечать проверяющие?

Задайте короткое окно ответа и придерживайтесь его. Для большинства небольших команд хорошо работает ответ в тот же день, а для клиентских сценариев лучше еще быстрее. Если проверка занимает слишком много времени, люди возвращаются к ручной работе или отправляют черновики без проверки.

Что нужно записывать, когда ИИ ошибается?

Фиксируйте неудачный результат, входные данные, которые его вызвали, кто заметил ошибку и что ее исправило. Храните эту запись в одном месте. Через неделю-две станет видно, проблема в промптах, устаревших данных или неровной проверке.

Когда есть смысл звать внешнего специалиста?

Обращайтесь за внешней помощью, когда команда вместо улучшения процесса снова и снова спорит об ответственности, источниках данных или правилах согласования. Хороший консультант помогает сузить объем, очистить передачу между этапами и задать простые правила, чтобы пилот работал в ежедневной практике.