24 июл. 2024 г.·7 мин чтения

Небольшие AI-сгенерированные PR: где провести границу

Небольшие AI-сгенерированные pull request остаются удобными для ревью, если ограничить число файлов, держать тесты в узком фокусе и упростить откат каждого изменения.

Содержание

Почему всё быстро превращается в хаос

AI может изменить слишком многое за один проход. Дайте ему широкий запрос, и он может одновременно обновить обработчик, переименовать хелперы, переписать тесты, подчистить комментарии и переформатировать файлы. Пару минут это выглядит эффективно.

Проблемы начинаются, когда diff становится слишком большим, чтобы удержать его в голове. Reviewer может понять новую функцию, но не заметить переименованную функцию, которая ломает другой путь. Или он тратит большую часть ревью на то, чтобы отделить шум от реальных изменений в логике.

Большие diff ещё и скрывают суть pull request. Если цель — «добавить одно правило валидации», reviewer должен увидеть это сразу. Вместо этого AI часто смешивает реальное изменение с лишним, о чём никто не просил: рефакторингом, переписыванием тестов, чисткой импортов или правками стиля. Теперь reviewer должен ответить сразу на три вопроса: что изменилось, зачем это изменилось и какие части действительно важны.

Именно так пропускают баги. Reviewer устаёт, начинает просматривать код по диагонали и доверять summary вместо чтения самого кода. Если один PR затрагивает несколько не связанных между собой областей, люди часто одобряют ту часть, которую поняли, и надеются, что остальное в порядке. Надежда — это не метод ревью.

Большие AI PR ещё и тормозят команду. Они дольше висят на ревью, вызывают больше комментариев и возвращаются на доработку. То, что казалось экономией времени, превращается в цикл туда-сюда, который съедает весь день. Для загруженной команды это быстро становится стрессом: никто не хочет одобрять грязное изменение, которое он не дочитал до конца.

Команды, которые хорошо используют AI, быстро это понимают: модель может сгенерировать много кода, но reviewer всё равно нужен небольшой и понятный рабочий кусок. Если человек не может объяснить изменение в двух-трёх предложениях, PR, скорее всего, уже слишком большой.

Что значит «достаточно маленький»

Небольшой AI-сгенерированный pull request делает одну задачу. Вы должны уметь описать эту задачу одним простым предложением. Если изменение исправляет баг в валидации формы, оно должно исправлять именно этот баг и на этом останавливаться.

Список файлов должен читаться легко. Reviewer должен открыть PR и за несколько секунд понять его форму. Если diff прыгает между многими папками, затрагивает не связанные файлы или смешивает рефакторинг с изменением поведения, PR перестал быть небольшим.

Тесты важны, но важнее scope. Небольшой PR — это когда тесты доказывают изменённое поведение и почти ничего больше. Если вам нужно прогнать половину приложения, обновить snapshots по всему коду или искать побочные эффекты в далёких фичах, изменение слишком широкое для чистого ревью.

Хорошо работает простое правило: если вы не можете вслух объяснить изменение примерно за минуту, разделите его. Reviewer’ам проще, когда они быстро отвечают на четыре вопроса:

Что изменилось?
Почему это изменилось?
Откуда мы знаем, что это работает?
Как это откатить?

Последний вопрос слишком часто игнорируют. Небольшую работу легко откатить. Если изменение создаст проблему в production, команда должна уметь отменить его без длинного плана восстановления, скрипта для исправления данных или цепочки последующих правок. Если rollback выглядит рискованно, значит, в PR слишком много всего.

Подумайте о простом примере. AI-инструмент обновляет обработку ошибок для одного API endpoint, добавляет два точечных теста и меняет один shared helper. Это всё ещё можно ревьюить. Но если тот же PR ещё и переименовывает типы, меняет логирование по всему сервису и переписывает test fixtures, reviewer уже должен оценивать несколько идей одновременно.

Небольшие AI-сгенерированные pull request — это не про точный подсчёт строк. Это про ясную цель, узкие тесты и лёгкий откат. Если человек может спокойно прочитать diff и решить «да» или «нет» без долгой встречи, размер, скорее всего, выбран правильно.

Используйте число файлов как первый ограничитель

Количество файлов — самый быстрый способ понять размер pull request. AI может превратить одну небольшую задачу в правки обработчиков, хелперов, схем, тестов, конфигов и generated files, прежде чем кто-то это заметит. Как только это происходит, ревью замедляется, а люди начинают просматривать всё по диагонали.

Для небольших AI-сгенерированных pull request мягкий лимит в 3–7 файлов хорошо работает в большинстве продуктовых кодовых баз. Это не магическое число. Оно просто удерживает изменение в таком размере, где reviewer может держать всё в голове.

Если код затрагивает рискованные области, снижайте лимит. Auth, billing, permissions, account deletion и всё, что связано с деньгами или доступом, обычно должны оставаться ближе к 1–3 файлам. В таких местах даже маленькая правка может поменять права пользователя или сломать платёжный путь.

Практичное правило выглядит так:

3–7 файлов для обычной работы над фичами или багфиксов
1–3 файла для auth, billing, security или кода миграций данных
Отдельные PR для сгенерированных пакетов, таких как clients, SDK или schema output

Команды часто попадают в неприятности, когда смешивают разные виды работы. Если PR исправляет баг, держите его в рамках этого бага. Если модель ещё и подчистила имена, передвинула функции или переформатировала половину папки, вынесите это в другой PR. Reviewer не должен оценивать изменение поведения и одновременно распутывать рефакторинг.

Generated files требуют ещё большей дисциплины. Модель может обновить 20 файлов, потому что изменилась одна схема, и технически это нормально. Но как единица ревью это всё равно плохо. Выносите generated batch в отдельный PR, чтобы reviewer мог отдельно проверить исходные изменения и отдельно — машинный вывод.

Это особенно важно для небольших, быстро работающих команд. Oleg Sotnikov часто работает с небольшими инженерными группами, где один человек может за день просмотреть много сгенерированного кода. В такой конфигурации количество файлов — не идеальная метрика, но полезный тормоз. Если PR вышел за лимит, разделите его ещё до начала ревью.

Хорошая привычка звучит так: если вы не можете объяснить, почему изменился каждый затронутый файл, одним коротким предложением, PR уже слишком широк.

Держите тестовый scope узким

Небольшие AI-сгенерированные pull request остаются удобными для ревью, когда область тестов остаётся рядом с тем кодом, который изменился. Если AI меняет одну функцию, начните с тестов для этой функции. Если он меняет один API route, прогоните unit-тесты для этого маршрута и ближайшую integration-проверку, которая подтверждает, что запрос по-прежнему проходит end to end.

Такой первый проход быстро ловит большинство плохих правок. Он ещё и не заставляет reviewer ждать длинный прогон тестов ради того, чтобы понять, что одна маленькая правка сломала простой сценарий.

Хорошее правило простое: добавьте один точечный тест для нового пути. Если AI добавил ветку retry, напишите один тест именно для неё. Если он поменял input validation, напишите один тест, который показывает, что новый некорректный ввод падает правильным образом. Один понятный тест обычно полезнее, чем широкая переписка десяти старых.

Команды начинают буксовать, когда маленькое изменение кода тянет за собой огромный diff в тестах. Если общее поведение не менялось, не трогайте весь suite. Полный прогон имеет смысл, когда AI поменял shared helper, общую модель или код, который используют многие фичи. Для локальной правки широкий churn в тестах обычно означает, что PR уже слишком большой.

Перед открытием PR помогает короткий ритуал. Сначала запустите ближайшие unit-тесты. Если изменение пересекает границу между системами, запустите один связанный integration-тест. Добавьте один тест для нового или исправленного пути. Не переписывайте широкие тесты без необходимости, если только общая логика действительно не изменилась.

Большие переписывания тестов заслуживают отдельного PR. Reviewer’ы читают их иначе, и они скрывают продуктовые изменения, если смешать всё вместе. PR, который меняет логику и переписывает десятки тестов, просит людей оценить слишком много всего сразу.

Для небольших команд это особенно важно. Узкий scope тестов — один из самых простых способов сохранить скорость AI, не превращая ревью в угадайку.

Проверьте откат до merge

Ревью AI-кода без лишних сомнений

Задайте понятные правила по объёму, тестам и откату, прежде чем накопятся большие diff.

Начать с Oleg

Pull request нельзя считать небольшим, если его нельзя быстро отменить. Перед merge задайте прямой вопрос: если это сломает production, что мы сделаем в ближайшие пять минут? Если ответ расплывчатый, изменение слишком широкое.

В небольших AI-сгенерированных pull request rollback — это часть оценки размера, а не мысль «на потом». Reviewer должен уметь сказать: «откатываем commit, выключаем flag, выкатываем заново» — и действительно это иметь в виду. Если rollback требует плана миграции, ручного исправления данных и долгого обсуждения порядка действий, разделите работу до merge.

Изменения схемы базы данных и конфигурации часто выглядят крошечными в diff. Но это не так. Одно изменение окружения может сломать вход в систему. Одна правка схемы может рассинхронизировать старый код и новые данные. Не смешивайте такие изменения с небольшим feature PR, если только весь PR не существует именно ради этой одной правки.

Когда пользователи могут почувствовать изменение, добавьте feature flag. Это даст команде быстрый выключатель без срочного hotfix. Вы сможете слить код, проверить его в production с меньшим риском и выключить, если метрики или обращения в поддержку пойдут не туда.

Перед одобрением проверьте четыре вещи:

Можно ли откатить код, не трогая сохранённые данные?
Можно ли выключить видимую для пользователя часть через flag?
Нужны ли одновременно изменения в infra, secrets или config?
Будет ли rollback работать одинаково в staging и production?

Если хотя бы на один вопрос ответ «нет» или «зависит», PR, скорее всего, объединяет слишком много всего. Смешивать UI, backend и infra-изменения в одном AI-сгенерированном PR — значит делать ревью медленнее, а rollback запутаннее. Иногда end-to-end изменение действительно нужно, но большинству команд лучше работают отдельные PR, которые заходят по очереди.

Простой пример хорошо показывает границу. Изменить текст кнопки и одно API-поле обычно легко отменить. Изменить кнопку, API contract, background job и настройку деплоя в одном merge — уже нет. Именно такие PR выглядят эффективными ровно до первого сбоя.

Простой способ оценить размер AI PR

Самый простой способ сделать AI PR удобным для ревью — оценить его размер до того, как модель напишет хоть одну строку. Если цель размыта, PR расползётся. Если цель узкая, ревью обычно проходит спокойно.

Начните с одного предложения. Сформулируйте его так, чтобы любой коллега прочитал и понял, что именно должно измениться. Например: «Добавить серверную валидацию для формы регистрации и обновить связанные тесты». Такое предложение сразу ставит границу работы.

Затем запишите, какие файлы AI может трогать. Это не должно быть идеально, но должно быть конкретно. Если вы ожидаете изменения в signup_handler, validation и одном тестовом файле, скажите об этом заранее. Если AI начинает редактировать не связанные файлы, остановите запуск и верните его в рамки.

Простой рабочий процесс:

Сформулируйте цель одним предложением.
Назовите файлы или папки, которые входят в scope.
Сгенерируйте изменение и следите за правками вне этого scope.
Вынесите лишнюю работу во второй PR.
Проверьте тесты и rollback перед тем, как просить одобрение.

Эта одна привычка сильно снижает шум. Reviewer может сравнивать результат с исходной целью, а не гадать, что именно хотел сделать AI.

Количество файлов — только первая проверка, но полезная. Если PR затрагивает много файлов, спросите почему. Иногда шесть файлов — это нормально, потому что они все относятся к одному небольшому изменению поведения. Но если AI тронул config, docs, tests, UI copy и backend logic ради маленького запроса, PR уже уходит в сторону.

То же правило касается тестов. Держите scope тестов узким. Добавляйте или обновляйте только те тесты, которые доказывают, что именно это изменение работает. Если AI начинает переписывать большие наборы тестов, такая работа, скорее всего, должна жить в отдельном PR.

Rollback тоже должен оставаться простым. Reviewer должен быстро ответить на один вопрос: «Если это сломается в production, можем ли мы чисто откатить изменение?» Если ответ «нет», уменьшите PR до ревью.

Хорошее правило на каждый день очень простое: одна цель, короткий список файлов, точечные тесты и чистый путь к откату. Когда AI хочет сделать больше, открывайте второй PR. Это почти всегда экономит время.

Реалистичный пример

Задайте правила для PR заранее

Поработайте с Oleg, чтобы определить лимиты по файлам, тестам и откату, которые ваша команда действительно будет соблюдать.

Записаться на консультацию

Представьте баг в регистрации с узким краем: форма показывает неправильное сообщение валидации, когда пользователь вводит email, который не соответствует правилу продукта. Это хороший кандидат для небольшого AI-сгенерированного pull request, потому что проблему легко описать и легко проверить.

Чистая версия такого PR меняет только три места. Один файл обновляет компонент формы, чтобы он показывал правильное сообщение. Один файл обновляет validator, чтобы он возвращал нужную ошибку. Один файл с тестами проверяет новое поведение.

Эта граница важна. Если AI ещё и переписывает имена хелперов, вычищает пробелы или подправляет старые стили в той же ветке, ревью становится сложнее без всякой пользы. Читателю приходится отделять исправление бага от посторонней чистки, и именно тут начинаются ошибки.

Reviewer должен уметь проверить такое изменение за несколько минут:

Ввести некорректный input и убедиться, что появляется новое сообщение
Использовать старый путь регистрации и убедиться, что он по-прежнему работает
Прочитать diff, не прыгая по не связанным файлам
Откатить изменение, восстановив небольшой набор отредактированных файлов

Именно на последнем пункте команды обычно честно признают размер. Если случится неудачный deploy, никто не хочет распутывать десять затронутых файлов и три побочных эффекта. В этом примере rollback очевиден: восстановите компонент формы, validator и файл с тестом, затем выкатите снова.

Это ещё и хороший момент, чтобы быть строгими к AI. Попросите одну пользовательскую правку, одно изменение validator и одно обновление теста. Отклоните чистку стиля в том же PR, даже если она кажется безобидной. Отдельные PR кажутся медленнее, но они экономят время на ревью и после релиза.

Такое изменение достаточно маленькое, потому что один человек может быстро понять его, проверить по короткому чеклисту и отменить без лишней драмы.

Ошибки, которые допускают команды

Чаще всего команда теряет контроль над AI PR тихо и буднично. Изменение начинается маленьким, потом инструмент чистит соседний код, переписывает тесты, трогает config, и reviewer уже смотрит на diff, у которого больше нет одной ясной цели.

Самая частая ошибка — позволить AI делать рефакторинг, пока он чинит баг. Исправление бага должно отвечать на один вопрос: баг исправлен или нет? Если в том же PR ещё и переименовываются файлы, переписываются хелперы и переставляются папки, уверенно проверить его уже нельзя. В итоге вы одобряете набор изменений, а не исправление.

Ещё одна плохая привычка — смешивать production settings с feature PR. Если для фичи нужен config change, команды часто добавляют его в ту же ветку, потому что так кажется быстрее. Обычно это не так. Когда фича ведёт себя странно, у вас теперь два подозреваемых: код и runtime-настройка. Это замедляет отладку и делает rollback грязнее, чем он должен быть.

Snapshot-обновления создают проблемы другого типа. AI-инструменты любят обновлять их массово. Reviewer’ы часто пролистывают такие файлы, потому что diff шумный и однообразный. Именно так мимо проходит сломанный вывод. Если snapshots меняются, кто-то должен читать их с тем же вниманием, что и source code, или держать PR настолько маленьким, чтобы их реально было читать.

Несколько паттернов должны сразу насторожить:

Небольшая правка интерфейса, которая ещё и добавляет database migration
Исправление бага, которое меняет shared utilities без понятной причины
Сотни snapshot-правок после маленького изменения компонента
PR, где сообщение commit говорит об одном, а diff показывает пять

Пример со схемой особенно показателен. Если меняется текст кнопки, вы не должны видеть новую таблицу, переименование столбца или migration данных в том же PR. Обычно такая связка появляется, когда AI делает широкие предположения вместо того, чтобы следовать узкой задаче.

Худший исход прост: reviewer не может понять, какая правка действительно важна. Как только это происходит, качество ревью быстро падает. Люди одобряют PR, потому что устали, а не потому что поняли его. Вот это и есть граница, за которой AI-сгенерированное изменение перестало быть маленьким.

Быстрые проверки перед открытием PR

Сократите туда-сюда в ревью

Сделайте PR проще для чтения, чтобы инженеры тратили меньше времени на распутывание смешанных изменений.

Получить совет

Хороший PR в лучшем смысле скучный. Reviewer может прочитать его один раз, запустить несколько тестов и принять решение без догадок. Если для объяснения изменения нужен абзац, оно, скорее всего, слишком большое.

Для небольших AI-сгенерированных pull request короткая пауза перед открытием PR ловит большинство проблем. Скажите изменение одним простым предложением. Если в этом предложении нужен союз «и», разделите работу. Посчитайте файлы. Короткий список файлов часто важнее, чем количество строк, потому что AI любит трогать лишние файлы на всякий случай. Подберите тесты под изменение. Если вы поменяли одно поведение, тестовый scope должен оставаться рядом с ним. Подумайте об откате. Вы должны уметь отменить PR, не вытаскивая из него другую работу, которая уже приземлилась после него. Потом уберите побочные правки. Шум от форматирования, попутный рефакторинг и переименованные переменные только замедляют ревью без пользы.

Первое предложение важнее, чем кажется. «Исправить обработку таймаута входа» — ясно. «Улучшить auth flow и подчистить session code» — нет. Во втором варианте спрятаны две или три отдельные правки, и reviewer это видит.

Список файлов рассказывает похожую историю. Если AI-agent тронул controller, три helper’а, два test-файла, config-файл и shared utility, остановитесь и спросите почему. Иногда такое распространение действительно оправдано. Но часто это значит, что модель ушла в сторону.

Тесты должны доказывать именно то, что вы поменяли. Если PR корректирует правило валидации, не нужен полный проход по несвязанным модулям. Широкий scope тестов делает изменение больше, чем оно есть, а ошибки потом сложнее читать.

Rollback — последняя проверка, потому что она заставляет быть честными. Если этот PR пойдёт не так в production, сможет ли ваша команда откатить его одним движением и двигаться дальше? Если нет, уменьшите его до ревью.

Что делать дальше

Команды работают лучше, когда перестают считать размер PR личным мнением и превращают его в письменное правило. Короткая политика убирает споры, ускоряет ревью и помогает доверять результатам AI.

Начните с трёх ограничений: сколько файлов может затронуть PR, сколько тестов ему нужно и насколько легко его отменить. Оставьте числа простыми. Например, можно ограничить обычные AI-изменения 3–5 файлами, требовать тесты на изменённое поведение и отклонять любой PR, который нельзя безопасно откатить за несколько минут.

Поместите эти ограничения туда, где люди будут видеть их каждый день. Шаблон PR — самое удобное место, потому что он превращает правила в чеклист, а не в расплывчатое ожидание. Сделайте его коротким: число файлов в пределах командного лимита, тесты обновлены под изменённое поведение, план отката описан в одной-двух строках, scope ограничен одной целью, AI-вывод перед ревью уже подчищен человеком.

Последний пункт особенно важен. Многие AI-инструменты продолжают работать, если им позволить. Они добавляют чистку, переименовывают вещи и переписывают соседний код, потому что видят шаблоны, а не потому что этого требует задача. Кто-то всё равно должен остановить запуск, сократить diff и сделать PR читаемым.

Если ваша команда пытается выстроить такие правила, полезно учиться у тех, кто уже строил AI-first инженерные процессы под реальным продакшн-нагрузом. Oleg Sotnikov на oleg.is работает со стартапами и небольшими бизнесами над практичными AI-augmented development workflows, и именно такая дисциплина ревью — большая часть того, что делает их рабочими.

Границу провести несложно. Одна цель. Короткий список файлов. Точечные тесты. Простой откат. Если PR не проходит хотя бы одну из этих проверок, разделите его до начала ревью.

Часто задаваемые вопросы

Что делает AI-сгенерированный pull request слишком большим?

AI PR становится слишком большим, когда пытается сделать больше одной задачи. Если вы не можете объяснить изменение одним простым предложением или diff смешивает исправление бага с рефакторингом, переписыванием тестов или чисткой кода, разделите его до ревью.

Сколько файлов должен затрагивать небольшой AI PR?

Для обычной продуктовой работы ориентируйтесь примерно на 3–7 файлов. Обычно этого достаточно, чтобы один reviewer мог внимательно прочитать diff без спешки.

Нужен ли меньший лимит файлов для рискованных областей, таких как auth или billing?

Да. Для auth, billing, permissions и миграций лучше держаться ближе к 1–3 файлам. Маленькие правки в этих зонах могут менять доступ, денежные потоки или сохранённые данные, поэтому scope должен быть жёстче.

Стоит ли добавлять сгенерированные файлы в тот же PR, что и исходное изменение?

Лучше вынести generated output в отдельный PR. Сначала проверьте исходное изменение, а потом отдельно ревьюйте сгенерированный пакет, чтобы машинный вывод не скрывал реальную логику.

Сколько тестирования должен включать небольшой AI PR?

Держите тесты как можно ближе к коду, который вы изменили. Прогоните ближайшие unit-тесты, добавьте один точечный тест для нового или исправленного пути и добавьте один связанный integration-проверку только если изменение проходит через границу между системами.

Когда одно AI-изменение лучше разделить на два PR?

Разделяйте работу, если PR содержит больше одной идеи. Хороший сигнал — слово «и» в цели, например: «исправить валидацию и подчистить хелперы». Обычно это значит, что нужны два PR, а не один.

Почему откат важен при оценке размера PR?

Rollback показывает, действительно ли PR небольшой. Если ваша команда не может сказать «revert, redeploy, done» без длинного плана восстановления, изменение слишком большое для одного review-юнита.

Стоит ли смешивать config или database-изменения с feature PR?

Обычно нет. Config, infra и schema-изменения часто выглядят маленькими в diff, но меняют поведение системы сильнее. Лучше держать их отдельно, если только весь PR не существует именно ради этой одной правки.

Что reviewer должен понять сразу?

Ревьюеру нужно быстро понять четыре вещи: что изменилось, зачем это изменилось, как это проверили и как это отменить. Если на любой из этих вопросов нужен длинный ответ, scope надо уменьшить.

Какое простое правило подойдёт команде для AI-сгенерированных pull request?

Используйте короткое правило: одна цель, короткий список файлов, точечные тесты, лёгкий откат. Поместите его в шаблон PR, чтобы люди проверяли scope до ревью, а не спорили о нём потом.