Оценка AI-выводов для команд с простой системой проверки
Оценка AI-выводов помогает продуктовым командам измерять полезность, время исправления и тип ошибок, чтобы находить слабые промпты и улучшать процесс проверки.

Где команды застревают
AI-ответы часто проходят проверку «на первый взгляд». Они звучат связно, выглядят аккуратно по формату, и кажется, что в них есть всё необходимое. А потом кто-то пытается использовать такой ответ в реальной задаче и находит проблему: пропущенную деталь, неверное предположение или фразу, которая звучит уверенно, но говорит не то.
Именно эта разница сначала сбивает команды с толку. Люди оценивают стиль раньше результата, поэтому система выглядит лучше, чем есть на самом деле. Ответ службы поддержки может читаться хорошо, но не затронуть настоящую проблему клиента. Краткая сводка по продукту может звучать чисто, но не упомянуть единственный важный баг.
Небольшие команды обычно проверяют такую работу по ситуации, без общей системы. Один человек смотрит на тон. Другого волнует фактическая точность. Третий замечает только то, пришлось ли переписывать половину текста. Ни один из этих взглядов сам по себе не неверный, но вместе они дают не стандарт, а набор мнений.
Потом начинается привычный цикл. Кто-то говорит: «нужно доработать промпт». Кто-то меняет модель, добавляет инструкции или правит шаблон. Несколько ответов становятся лучше, несколько хуже, и никто не может объяснить почему. Команда продолжает настраивать систему без устойчивого способа понять, что именно помогло.
Это решается простой проверкой. Большинству небольших команд не нужна исследовательская программа, отдельная команда разметки или огромная рубрика. Им нужен общий способ ответить на три простых вопроса:
- Был ли этот ответ полезен?
- Сколько времени ушло на исправление?
- Какая именно ошибка возникла?
Этого достаточно, чтобы увидеть закономерности. Если полезность остаётся низкой, система не попадает в задачу. Если время исправления остаётся высоким, ответ может выглядеть прилично, но всё равно съедает время. Если одна и та же ошибка повторяется, одних правок промпта, скорее всего, недостаточно.
Сначала оценивайте, потом меняйте систему. Иначе команды начинают спорить о примерах вместо того, чтобы учиться на них.
Три оценки, с которых стоит начать
Многие команды начинают с одной оценки, а потом скатываются в споры о вкусе. Лучше начать с трёх простых проверок, привязанных к реальной работе: полезность, время исправления и тип ошибки. Вместе они показывают, помог ли ответ, сколько доработки он потребовал и какая проблема повторяется.
Полезность всегда должна возвращаться к реальной задаче. Если AI составил ответ клиенту, который специалист поддержки смог отправить после быстрой правки, значит, он выполнил свою работу. Если текст получился гладким, но в нём не учтена политика возврата денег, оценка должна быть ниже. Смотрите на то, продвинул ли ответ работу вперёд, а не на то, звучал ли он умно.
Время исправления помогает команде смотреть правде в глаза. Люди часто говорят, что ответ был «довольно неплохим», хотя потратили 18 минут на то, что обычно занимает 6. Отслеживайте минуты от первого прочтения до версии, которую можно использовать. Выберите одно правило и оставляйте его неизменным каждую неделю. Например, учитывайте проверку фактов и переписывание, но не включайте время ожидания в другой очереди.
Тип ошибки — это то, что многие команды пропускают, а вместе с этим теряют сигнал. Низкая оценка говорит, что что-то пошло не так. Короткая метка показывает, что именно исправлять. Список должен быть небольшим, чтобы ревьюеры могли выбирать быстро:
- неверные факты
- пропущенная инструкция
- плохой формат
- слабая логика
- проблема с политикой или риском
Чаще всего достаточно одной метки на один результат. Выбирайте главную проблему, а не все возможные недостатки. Так еженедельная проверка становится намного проще.
Это работает потому, что система остаётся компактной. Продуктовая команда может оценить 20 ответов за короткую встречу и не превратить проверку в бюрократию. Через несколько недель начинают проявляться закономерности. Например, полезность остаётся нормальной, но время исправления растёт. Или оценки падают только на задачах с юридически чувствительным текстом. Этого уже достаточно, чтобы понять, что менять дальше.
Настройте шкалу полезности, которой люди смогут пользоваться
Большинство систем оценки ломаются потому, что люди ставят баллы по интуиции. Один ревьюер ставит 4, потому что ответ выглядит аккуратно. Другой ставит 2, потому что пришлось исправить одну важную деталь. Короткая шкала работает лучше, когда каждое число означает что-то одно и понятное.
Используйте шкалу от 1 до 5 и привязывайте её к работе, а не к ощущениям. Вопрос простой: насколько этот ответ был близок к тому, что человек мог бы использовать сразу?
Сначала запишите, что для вашей команды значит «можно использовать сразу». Возможно, ответ поддержки можно отправить клиенту после быстрой проверки. Возможно, сводку по продукту можно отправить в Slack без правок. Это не значит «в целом нормально». Если человеку всё ещё нужно исправлять факты, тон или пропущенные шаги, ответ не готов.
Практичная шкала выглядит так:
- 5 — Можно использовать как есть. Ревьюер проверяет и отправляет или публикует ответ.
- 4 — Хорошо, но нужна маленькая правка. Изменить одно предложение, добавить один факт или поправить формат.
- 3 — Пригодный черновик. Структура помогает, но ревьюеру всё ещё приходится переписывать часть текста.
- 2 — Частичный успех. Что-то верно, но исправлять приходится так долго, что проще начать заново.
- 1 — Провал. Ответ неверный, небезопасный, не по теме или слишком неаккуратный, чтобы его спасать.
Очень важна разница между 2 и 3. Оценка 3 действительно экономит время. Оценка 2 — обычно нет. Если команда путает эти уровни, оценки будут выглядеть лучше, чем ощущается реальная работа.
Примеры помогают лучше, чем абстрактные правила. Если продуктовая команда использует AI для черновиков релиз-нот, 5 означает, что текст точный и понятный. 4 может не хватать одного названия функции. 3 уже содержит нужные обновления, но звучит неуклюже. 2 пропускает важные изменения или добавляет ложные утверждения. 1 вообще говорит не о том релизе.
Держите примеры рядом с тем, что команда и так делает каждую неделю. Так люди оценивают быстрее и спорят меньше.
Измеряйте время исправления одинаково каждый раз
Время исправления показывает правду только тогда, когда все пользуются одними и теми же правилами. Если один ревьюер считает только правки, а другой включает переписку в Slack, встречи и кофейные паузы, число перестаёт что-либо значить.
Начните с небольшого набора повторяющихся задач. Выберите работу, которую команда видит часто, с похожими входными данными и похожим уровнем ответственности. Хорошие примеры — черновики описаний продукта, ответы поддержки, сводки релиз-нот и тексты по баг-репортам. Слишком разрозненная выборка делает оценку шумной.
Большинству команд стоит отслеживать активное время проверки, а не полное прошедшее время. Запускайте таймер, когда появляется AI-черновик и ревьюер начинает над ним работать. Ставьте паузу на посторонние отвлечения. Ожидание в календаре может превратить пятиминутную правку в бумажный 40-минутный бардак.
Останавливайте таймер, когда ревьюер действительно готов отправить результат. То есть когда он бы уже отправил, опубликовал или передал дальше без дополнительной доработки. Не останавливайте его, когда черновик «почти готов». Именно здесь команды чаще всего обманывают сами себя.
Несколько простых правил помогают всем смотреть на одно и то же:
- Повторная попытка — это любой новый запуск модели для той же задачи.
- Правка — это когда человек меняет формулировки, факты, структуру или тон.
- Эскалация — это когда для завершения или проверки подключается другой человек.
- Итоговое время исправления — это суммарное активное время проверки у всех, кто работал с задачей.
Держите эти счётчики рядом со временем, а не внутри него. Две задачи могут обе занять шесть минут, но у одной было три повторных попытки и эскалация. Это уже совсем другая проблема, чем чистый черновик с несколькими быстрыми правками.
Небольшой пример делает это понятнее. PM проверяет AI-черновик релиз-ноты. Первый вариант появляется в 10:02. Она две минуты исправляет названия продуктов, запускает одну повторную попытку, чтобы сократить вступление, затем просит инженера проверить номер версии. Инженер тратит минуту на подтверждение, а PM ещё одну минуту доводит текст до конца. В журнале это четыре минуты времени исправления, одна повторная попытка, несколько правок и одна эскалация.
Когда команда договорится о правилах, запишите их простым языком. Новый ревьюер должен быть в состоянии подключиться уже на следующей неделе и оценивать ту же задачу почти так же, как и остальные, уже в первый день.
Сгруппируйте ошибки в короткий список
Если ревьюер может выбрать из 12 меток, он будет использовать их 12 разными способами. Короткий список работает лучше, потому что люди выбирают его быстрее и остаются последовательными из недели в неделю. Это важнее, чем идеальный каталог всех возможных ошибок.
Большинству команд хватает пяти меток. Этого достаточно, чтобы увидеть закономерности и не превратить проверку в бумажную работу.
- Неверные факты — ответ сообщает что-то ложное, путает цифры или придумывает детали.
- Неверный формат — ответ игнорирует нужную структуру, тон, длину или тип результата.
- Пропущенная деталь — ответ частично верный, но не хватает шагов, контекста или пограничных случаев.
- Небезопасный тон — ответ звучит рискованно, враждебно, манипулятивно или небрежно для этой ситуации.
- Сбой инструмента или процесса — модель может быть нормальной, но система подхватила не тот файл, использовала устаревший контекст или не вызвала нужный инструмент.
Последняя метка сильно снижает путаницу. Команды часто винят модель, когда настоящая проблема скрыта в поиске, в промпте или в передаче данных между инструментами. Если черновик для поддержки содержит старые цены только потому, что система подгрузила устаревший документ, это не то же самое, что модель, которая сама придумала цену.
Для одной проверки обычно хватит одной главной метки ошибки. Если ревьюеры почти всегда добавляют вторую, это нормально. Но если они вешают по три метки на каждый плохой ответ, данные быстро становятся мутными. Вам нужен понятный сигнал о первом сломанном месте.
Редкие метки обычно приносят больше вреда, чем пользы. Если какая-то метка появляется один-два раза в месяц, объедините её с ближайшей крупной категорией. Команда, которая создаёт отдельные метки для «слишком расплывчато», «слишком общее» и «не хватает нюанса», часто учится меньше, чем команда, которая объединяет всё это в «пропущенную деталь».
Есть простой тест: если два ревьюера регулярно сомневаются между метками, список слишком длинный или определения слишком размытые. Уточните формулировки, объедините пересечения и двигайтесь дальше. Цель не в том, чтобы построить идеальную таксономию. Цель — увидеть, где система ломается достаточно часто, чтобы это можно было исправить.
Запустите еженедельный ритм оценки
Назначьте одного человека, который будет отвечать за таблицу оценок. Ему не нужно лично проверять каждый результат. Он следит за процессом, собирает выборку, назначает проверку и контролирует, чтобы оценки каждую неделю попадали в одно и то же место.
Держите выборку небольшой. Для большинства продуктовых команд достаточно 10–20 реальных результатов за последнюю неделю. Берите их из настоящей работы пользователей, черновиков поддержки, сводок или внутренних ответов ассистента. Не собирайте выборку из специально отобранных удач или очевидных провалов. Это быстро искажает картину.
Короткая сессия проверки работает лучше, чем хаотичные оценки в течение недели. Часто хватает 30 минут. Разместите результаты на одном экране, оцените полезность, отметьте время исправления и пометьте тип ошибки, пока контекст ещё свеж. Если сначала двое людей оценивают вместе, они обычно быстрее начинают соглашаться после нескольких раундов.
Простой недельный ритм выглядит так:
- В понедельник или пятницу соберите свежую выборку из реальной работы.
- Назначьте одного ответственного за таблицу и заметки.
- Оцените всю выборку за один раз.
- Последние 10 минут потратьте на закономерности и следующий шаг.
Разговор после оценки важнее самой таблицы. Если полезность упала, проверьте, не изменился ли промпт, не стала ли задача сложнее и не ужесточили ли ревьюеры требования. Если время исправления выросло, ищите повторяющуюся проблему вроде пропущенных деталей, неверного тона или выдуманных фактов.
Меняйте только одну вещь за раз. Если вы переписали промпт, сменили модель и обновили гайд по проверке в ту же неделю, вы не поймёте, что именно сдвинуло оценки. Небольшие изменения проще оценивать и легче удерживать.
Команда может делать это почти без лишних затрат. PM, руководитель поддержки и один ревьюер могут за полчаса оценить 15 результатов, заметить, что большая часть доработок связана с нехваткой контекста, и поправить шаблон входных данных ещё до следующей недели.
Простой пример из продуктовой команды
Небольшая support-команда SaaS использует AI для черновиков ответов перед тем, как человек отправит их клиенту. Один клиент пишет, что не может экспортировать счёт. Первый AI-черновик звучит вежливо и понятно, но в нём есть один неверный шаг и обещание функции, которой в продукте нет.
Такой черновик получает оценку полезности ещё до правок. Ревьюер ставит 3 из 5. Ответ не бесполезен. У него правильный тон, и часть структуры нормальная. Но отправить его как есть специалист поддержки не может, поэтому оценка остаётся средней.
Команда также отслеживает время исправления. Руководитель поддержки открывает черновик, проверяет политику по биллингу, убирает ложное обещание, добавляет реальные шаги экспорта и правит одно предложение, которое может запутать клиента. Итоговое время правки: 6 минут.
Этих двух чисел уже достаточно, чтобы понять картину. Черновик был достаточно неплохим, чтобы сэкономить немного набора текста, но не настолько хорошим, чтобы ему доверять. Шесть минут доработки — это много, если команда обрабатывает 80 обращений в день.
Метка ошибки делает следующий шаг очевидным. В этом случае команда отмечает черновик как «нехватка контекста продукта», а не как «плохой тон» или «ошибка формата». Это важно, потому что исправление здесь — не дополнительное обучение руководителя поддержки редактировать тексты. Нужно менять систему.
После этого команда вносит три небольших изменения:
- добавляет в промпт текущие шаги экспорта счёта
- запрещает модели обещать будущие функции
- подтягивает в рабочий процесс актуальный текст по биллингу
Через неделю такой же тип обращения выглядит иначе. Первый черновик теперь получает 4 из 5, а редактор тратит 2 минуты вместо 6. В этом и смысл простой системы проверки. Чтобы улучшать результаты, не нужна исследовательская команда. Нужны понятная оценка, стабильный таймер и метка ошибки, которая подсказывает, что менять дальше.
Ошибки, которые искажают цифры
Система проверки может сломаться быстрее, чем ожидает большинство команд. Цифры по-прежнему выглядят аккуратно, но перестают говорить правду. Обычно это происходит, когда команда меняет правила, оценивает задним числом или сравнивает задачи, которые изначально не были равны.
Одна частая ошибка — менять шкалу каждую неделю. Если на этой неделе ревьюеры используют шкалу от 1 до 5, а на следующей добавляют «6» для исключительных результатов, линия тренда ломается. Даже более мелкие изменения создают проблемы. Оценка 3 означает одно, когда её называют «достаточно хорошо», и совсем другое, когда говорят «нужны правки».
Держите шкалу неизменной хотя бы месяц. Если всё же нужно её поменять, начинайте новый ряд данных, а не делайте вид, что старые оценки по-прежнему сопоставимы.
Ещё одна проблема появляется, когда люди оценивают результат уже после того, как знают финал. Допустим, специалисты поддержки используют AI-черновик, исправляют его, отправляют клиенту и потом узнают, что клиент остался доволен. Тогда ревьюеры часто ставят этому черновику более высокую оценку, потому что итог был хорошим. Но бывает и наоборот: плохой исход может выставить вполне нормальный черновик в худшем свете.
Оценивайте результат как можно ближе к моменту первого просмотра. Смотрите на то, что сделал AI, а не на всю историю, которая случилась потом.
Смесь разных задач тоже искажает картину. Если сложить простые ответы на FAQ и сложные пограничные случаи в одну корзину, средние значения поедут по причинам, не связанным с качеством модели. Команда может решить, что система стала хуже, хотя на самом деле просто на этой неделе ей попались более сложные задачи.
Разделяйте работу на несколько понятных групп. Держите обычные задачи отдельно от сложных случаев. Не нужна идеальная таксономия. Нужны такие группы, чтобы можно было честно сравнивать.
Слишком много меток создаёт другой тип хаоса. Команды часто начинают с короткого списка типов ошибок, а потом добавляют новые всякий раз, когда появляется очередной странный случай. Через пару недель у ревьюеров уже 14 меток, они пересекаются друг с другом, и привычки у всех разные. Один человек ставит «проблема с тоном», другой выбирает «неясность», а третий — «формат» для одной и той же ошибки.
Короткий список лучше умного. Если ревьюеры не могут выбрать одну и ту же метку за несколько секунд, список слишком длинный.
Хорошие данные проверки — немного скучные. И это именно то, что нужно. Стабильная шкала, ранняя оценка, честное разделение задач и небольшой набор меток дают цифры, которым можно достаточно доверять, чтобы на них опираться.
Краткая проверка перед тем, как действовать по цифрам
Низкая оценка мало что значит, если ревьюеры используют разные правила. Прежде чем менять промпты, модели или рабочий процесс, сравните несколько оценённых примеров рядом. Если один ревьюер считает ответ полезным, хотя там нужны мелкие правки, а другой проваливает тот же ответ, цифры мало о чём говорят.
Запишите короткие определения для каждой оценки и проверьте их на реальных примерах. Десять минут калибровки могут сэкономить недели неверных исправлений. Попросите двух ревьюеров оценить одни и те же пять ответов, а потом посмотрите, где они расходятся. Если не сходятся — сначала исправьте определение.
Оценки также имеют больше смысла, когда вы сравниваете один и тот же тип задачи. Модель, которая пишет релиз-ноты, не должна стоять в одной группе с моделью, которая отвечает на обращения в поддержку или извлекает поля из инвойсов. У каждой задачи свой порог полезности, времени исправления и риска. Если смешивать простую работу со сложной, оценки быстро становятся шумными.
Один неудачный пример может загнать команду в режим паники. Не реагируйте на один плохой результат, если ошибка не критична и не повторяется в живой работе. Смотрите на тренд за неделю или две. Если полезность падает с 4,2 до 3,6 на похожих задачах, это сигнал. Если один ответ провалился, а остальные нормальные, сначала считайте его выбросом.
Короткая проверка помогает отсеять большинство неверных выводов:
- Проверьте, ставят ли два ревьюера одинаковую оценку одному и тому же примеру.
- Сравнивайте результаты только внутри одного типа задачи.
- Смотрите на недавние средние значения, а не на один грубый пример.
- Убедитесь, что отредактированная версия всё ещё решает исходную задачу.
Последняя проверка важнее, чем многие ожидают. Люди часто считают любую успешную переработку доказательством того, что модель была «достаточно близко». Но так бывает не всегда. Если задача звучала как «кратко изложи этот баг-репорт для инженеров», а ревьюер переписал его в ответ для клиента, то он решил уже другую задачу. Оценка должна отражать это.
Когда вы приводите в порядок эти базовые вещи, цифры начинают указывать на реальные проблемы, а не на привычки ревьюеров или случайную удачу.
Что делать после первого месяца
Через месяц закономерности обычно уже видны. Можно понять, какие ошибки повторяются, какие задачи слишком долго исправлять и какие ответы люди принимают почти без усилий. Именно тогда оценка начинает помогать команде, а не просто описывать проблему.
Начните с ошибок, которые появляются чаще всего. Если модель постоянно пропускает одну и ту же деталь, перепишите промпт так, чтобы эта деталь была явной. Если ревьюеры постоянно добавляют одно и то же предложение, поле или предупреждение, включите это требование в промпт или шаблон, а не платите за одну и ту же правку каждую неделю.
Время исправления тоже требует своего действия. Если одна задача постоянно занимает намного больше времени, проблема часто не только в модели. Команде может понадобиться правило проверки, чек-лист или более чёткое определение готовности. Короткое правило вроде «отклоняйте ответы с неподтверждёнными утверждениями» или «проверяйте даты перед утверждением» может быстро сократить время проверки, когда люди уже понимают, где именно трение.
Старайтесь не перегружать заметки. Для большинства команд достаточно одной страницы. Включите туда три главных типа ошибок за месяц, промпты, которые вы изменили, места, где время исправления по-прежнему высокое, одно добавленное правило проверки и одну задачу, которую вы протестируете в следующем месяце. Этого достаточно, чтобы продукт, операционка и разработка оставались в одном ритме, не превращая процесс в театральную отчётность.
Если через месяц цифры всё ещё шумные, не добавляйте ещё десять метрик. Сначала поправьте процесс. Уточните промпт, уменьшите количество догадок у ревьюеров и уберите задачи, которые смешивают слишком много целей в одном ответе. Большинство команд получают лучшие результаты от более простых входных данных и более ясных правил проверки, а не от большего числа оценок.
Иногда проблема в настройке глубже, чем правка промпта. Если команда не может понять, сидит ли ошибка в модели, в процессе или в окружении продукта и инфраструктуры, внешняя помощь может сэкономить время. Oleg Sotnikov на oleg.is работает со стартапами и небольшими командами как Fractional CTO и startup advisor, и именно такие практические проблемы с AI-процессами он помогает распутывать.
Смысл простой: начните с оценки, которой команда действительно может пользоваться. Когда вы ясно видите полезность, время исправления и тип ошибки, следующий шаг обычно перестаёт быть догадкой.
Часто задаваемые вопросы
Зачем отслеживать три оценки вместо одной?
Одна оценка скрывает слишком многое. Полезность показывает, помог ли черновик, время исправления показывает, сколько работы людям всё ещё пришлось сделать, а тип ошибки указывает, что именно нужно исправить. Вместе эти три оценки превращают размытые мнения в то, с чем команда может работать.
Как выглядит полезная шкала оценок от 1 до 5?
Простая шкала от 1 до 5 работает хорошо, когда каждое число соответствует реальной работе. 5 означает, что черновик можно отправлять или публиковать как есть, 4 требует небольшой правки, 3 даёт пригодный черновик, 2 требует столько доработки, что проще начать заново, а 1 не справляется с задачей. Запишите примеры из своей команды, чтобы все оценивали одинаково.
Как измерять время исправления?
Отслеживайте активное время проверки, а не весь промежуток по часам. Начинайте, когда человек открывает черновик и начинает его править, делайте паузу на посторонние отвлечения и останавливайте таймер, когда результат уже можно отправлять. Считайте время всех, кто участвовал в доработке, чтобы цифра отражала реальную стоимость исправления.
Какие метки ошибок стоит использовать небольшой команде?
Держите названия короткими, чтобы ревьюеры быстро выбирали их и оставались последовательными. Для большинства команд достаточно таких меток: неверные факты, неверный формат, пропущенная деталь, небезопасный тон и сбой инструмента или процесса. Выбирайте главную ошибку, а не все мелкие недочёты, иначе данные быстро запутаются.
Сколько результатов нужно проверять каждую неделю?
Большинству небольших команд достаточно 10–20 реальных результатов в неделю. Этого хватает, чтобы увидеть закономерности, не превращая проверку в лишнюю админработу. Берите выборку из обычной рабочей рутины, а не из лучших или худших примеров.
Кто должен отвечать за процесс оценки?
Назначьте одного человека ответственным за процесс. Он будет собирать выборку, следить за таблицей оценок и проверять, что команда каждую неделю работает по одним и тем же правилам. Ему не обязательно лично оценивать всё, но именно он должен удерживать процесс в порядке.
Оценивать AI-ответ до правок или после?
Оценивайте первый черновик до того, как последующие результаты начнут влиять на впечатление о нём. Удовлетворённый клиент может сделать слабый черновик лучше, чем он был, а плохой итог — выставить нормальный черновик в худшем свете. Сначала оценивайте то, что сгенерировал AI, а правки и время считайте отдельно.
Как не сделать цифры шумными или вводящими в заблуждение?
Держите шкалу неизменной, сравнивайте похожие типы задач и время от времени просите двух ревьюеров оценить одну и ту же небольшую выборку. Если они часто расходятся во мнениях, сначала исправьте определения, а уже потом меняйте промпты или модели. Стабильные правила важнее красивых метрик.
Что менять после первого месяца оценки?
Начинайте с ошибок, которые повторяются чаще всего. Если ревьюеры всё время добавляют один и тот же факт, предупреждение или шаг, перенесите это в промпт или шаблон. Если одна задача по-прежнему отнимает слишком много времени, ужесточите правило проверки или упростите процесс, вместо того чтобы добавлять ещё больше оценок.
Когда стоит обращаться за внешней помощью?
Привлекайте внешнюю помощь, если команда всё ещё не понимает, проблема в промпте, модели, настройке поиска или в самом процессе вокруг этого. Опытный Fractional CTO или AI systems advisor разберётся с этим быстрее, чем ещё один месяц догадок. Это экономит время, когда мелкие правки промпта больше не двигают оценки.