31 окт. 2024 г.·6 мин чтения

Развертывание на одном сервере, которое дольше остается управляемым

Развертывание на одном сервере может долго запускать ваше приложение, воркеры и мониторинг, если вы задаете ограничения и не усложняете эксплуатацию.

Содержание

Почему команды слишком рано добавляют лишнее

Небольшие команды часто копируют инфраструктуру компаний, которые в десять раз больше. Обычно это начинается с хорошего намерения. Люди хотят надежности, запаса на рост и меньше сюрпризов потом. Но ранняя инфраструктура часто бывает страхом, переодетым в планирование.

Стартапу с одним продуктом не нужен такой же набор систем, как компании, где отдельно работают операции, безопасность, данные и разработка. Если слишком рано разносить молодой продукт по нескольким машинам, появляется больше мест для отладки, больше секретов для управления, больше расхождений в настройках и больше тревог, которые ничего не значат.

Эта цена проявляется в обычной работе задолго до того, как появляется реальная нагрузка. Деплои идут дольше, потому что службы должны перезапускаться в правильном порядке. Ошибки сложнее отследить, потому что логи лежат в разных местах. Маленькие изменения превращаются в тикеты, исправления и уборку по выходным. Каждый дополнительный инструмент требует обновлений, резервных копий и человека, который понимает, как он устроен.

Большинству ранних продуктов такой груз не нужен. Им нужна быстрая обратная связь. Им нужно понять, где на самом деле узкое место: CPU, память, диск, медленные запросы, шумные воркеры или один напряженный час каждый день. Один сервер делает такие проблемы заметнее.

Поэтому опытные администраторы часто держат систему компактной дольше, чем новички ожидают. Цель не в том, чтобы просто сэкономить. Цель в том, чтобы отложить сложность до момента, когда реальная проблема сама потребует этого.

Один хорошо настроенный сервер может дать месяцы обучения. Иногда — годы. А когда приходит время разделять стек, вы уже понимаете, зачем это делаете и что нужно переносить первым.

Что один сервер делает хорошо

Одна машина может выдержать больше, чем многие команды ожидают. Для скромного SaaS-продукта один нормальный сервер может запускать веб-приложение, несколько фоновых процессов, базу данных и базовый мониторинг, не превращаясь в хаос.

Секрет простой: сначала разделяйте процессы, а уже потом машины. Запускайте сервер приложения как отдельную службу. Запускайте воркеры отдельными службами со своими лимитами и правилами перезапуска. Если обработка изображений резко вырастет или очередь почты начнет накапливаться, это не должно валить основное приложение.

Полезно держать связанные части рядом. Размещать PostgreSQL на той же машине часто вполне нормально, пока нагрузка умеренная, а набор данных комфортно помещается в память и на локальный диск. Приложение может общаться с базой через локальный сокет или приватный интерфейс, и это убирает целый класс сетевых и firewall-проблем. Небольшие команды сразу чувствуют разницу. Настройка проще, резервные копии понятнее, а задержка меньше.

Фоновые задачи тоже легче контролировать на одном сервере. Воркер, который отправляет письма, создает счета или импортирует CSV-файлы, может жить рядом с приложением и использовать ту же базу данных. Разделение все равно есть, но оно достигается процессами, контейнерами, systemd-юнитами и лимитами ресурсов, а не новыми машинами.

Мониторинг тоже сюда относится. На раннем этапе не нужна огромная платформа наблюдения. Нужно понимать, когда заканчивается место на диске, не хватает памяти, остановился воркер или выросла ошибка. Обычно достаточно локальных логов, Prometheus, Grafana и трекера ошибок.

Один сервер еще и приучает к хорошим привычкам. Вы замечаете, какой процесс съедает RAM. Вы ставите лимиты на память и CPU. Вы делаете деплои предсказуемыми. Это часто намного полезнее, чем разносить маленькую систему по трем машинам и половину недели тратить на внутреннюю сеть.

Думайте об одной машине как о маленьком кластере в одном месте. Дайте каждому процессу имя, понятное поведение при перезапуске и запасной план. Если позже одной части понадобится больше места, можно вынести только ее, не перестраивая все подряд.

Где ограничения проявляются первыми

Схема на одном сервере редко ломается из-за внезапного взрывного роста трафика. Чаще всего фоновые задачи начинают бороться с приложением за один и тот же CPU, память и диск. Машина вроде бы работает, но ощущается неустойчиво. Страницы тормозят, задачи копятся, а мелкие инциденты становится сложнее распутать.

Проблемы с CPU часто начинаются не с веб-запросов, а с воркеров. Генерация отчетов, уменьшение изображений, импорты и переиндексация могут на несколько минут занять все ядра. Пользователь чувствует это как медленные загрузки страниц или случайные тайм-ауты. Ограничивать параллельность воркеров нужно заранее. Без этого один шумный процесс может сделать здоровое приложение похожим на сломанное.

Нехватка памяти обычно приходит раньше, чем нагрузка выглядит пугающей. Команды ждут проблемы с трафиком, а RAM исчезает более тихо: несколько воркеров, кэш базы, один процесс сборки и утечка памяти, которую никто не заметил на прошлой неделе. Потом сервер начинает использовать swap, и время ответа скачет.

Место на диске — еще одна частая ловушка. Логи растут каждый час. Резервные копии копятся, потому что никто не хочет удалять старые. Загруженные файлы, дампы ошибок и артефакты сборки добавляют вес. А потом однажды утром база не может записать данные или приложение не может повернуть логи, и сбой кажется внезапным, хотя признаки были видны несколько дней.

Обычно тревога заметна по нескольким сигналам:

Воркеры завершают задачи намного дольше обычного.
Память остается высокой даже после снижения трафика.
Свободное место на диске уменьшается каждый день.
Перезапуски помогают на время, а потом проблема возвращается.

Восстановление становится неприятным, если никто его не отрабатывал. Многие системы на одном сервере выглядят нормально, пока не случится первый плохой деплой, отказ диска или сломанная миграция. Если вы не проверяли перезапуск, откат и восстановление из резервной копии, вы не знаете, сколько времени займет восстановление.

Хорошая новость в том, что ранние ограничения обычно видны. Следите за CPU во время всплесков фоновых задач, отслеживайте память со временем, держите расход диска под контролем и прогоняйте тесты восстановления заранее.

Как собрать здравый стек на одном сервере

Начните с одной Linux-машины и сделайте деплой скучным. Здравой настройке не нужно много движущихся частей. Ей нужны четкие границы, повторяемый деплой и способ заметить проблему раньше пользователей.

Сделайте так, чтобы весь сервер можно было собрать заново с нуля. Напишите один скрипт деплоя, который забирает код, собирает приложение, применяет конфигурацию, перезапускает службы и быстро проверяет состояние. Если коллега не может запустить этот скрипт и получить тот же результат, настройка начнет расползаться.

Дайте каждой части системы свой процесс. Это можно сделать с помощью контейнеров или systemd-служб. Инструмент важен меньше, чем правило. Веб-приложение, фоновые воркеры, база данных, кэш и прокси не должны растворяться в одном огромном runtime, который скрывает сбои.

Поставьте reverse proxy перед приложением. nginx — частый выбор, потому что он без лишней драмы обрабатывает TLS, статические файлы, сжатие и простые лимиты запросов. Кроме того, он дает одно аккуратное место для логов запросов, тайм-аутов и ограничений размера запросов.

Большинству команд хватает короткого стека: одна служба приложения для HTTP-запросов, одна служба воркеров для фоновых задач, одна база данных, если она находится локально, один reverse proxy и одно место для логов и базовых метрик.

Ставьте ограничения сразу. Вот этот шаг команды пропускают чаще всего, а потом почти всегда жалеют. Ограничьте параллельность воркеров, задайте лимиты памяти, определите правила перезапуска и поставьте алерты на диск, резервные копии и временные файлы.

Мониторинг не обязан быть сложным. Отслеживайте CPU, RAM, диск, глубину очереди, уровень ошибок и число перезапусков. Наблюдайте за машиной, приложением и воркерами отдельно, чтобы понимать, что именно ломается.

Потом сделайте тест, который вскрывает слабые конфигурации: перезагрузите сервер специально. Проверьте, что запускается автоматически, что ждет зависимостей и что тихо ломается. Стек на одном сервере здоров, когда после полной перезагрузки он поднимается чисто, а не когда работает только после ручных исправлений в 2 часа ночи.

Как делать сбои небольшими

Проверьте стек перезагрузкой

Oleg может проверить порядок запуска сервисов, окружение и поведение при перезапуске до следующей ночной аварии.

Провести обзор

Большинство сбоев на одной машине начинаются с мелких, скучных проблем. Воркер съедает слишком много памяти. Логи растут несколько дней. Один процесс завершается и больше не поднимается. Если вы хотите, чтобы один сервер оставался спокойным, считайте, что каждый элемент стека может вести себя неправильно.

Начните с жестких лимитов для воркеров. Ваше приложение должно сохранять свою долю CPU и памяти, даже когда копятся импорты, письма или задачи с AI. Если один воркер может занять всю машину, пользователи решат, что приложение упало, хотя сервер еще работает.

Здесь хорошо работает простое правило: ставьте задачи в очередь, а не запускайте бесконечное число воркеров. Медленные фоновые задачи раздражают. Заблокированная страница входа хуже.

Сбойные процессы нужно быстро перезапускать с помощью systemd или правил перезапуска контейнеров, чтобы приложение, воркеры и мониторинг возвращались за секунды. Добавьте небольшую паузу между попытками. Это не даст одному плохому деплою превратиться в бесконечный цикл падений, который жжет CPU и забивает диск логами.

К месту на диске стоит относиться серьезнее, чем это делает большинство команд. Настройте ротацию логов заранее. Удаляйте старые логи по расписанию. Отслеживайте использование диска, повторные перезапуски и нехватку памяти вместе, потому что эти сигналы часто появляются группой.

С резервными копиями работает одно жесткое правило: никогда не храните единственную копию на том же сервере. Отправляйте дампы базы и нужные файлы куда-то еще. Затем проверяйте восстановление. Короткий тест восстановления на запасной машине покажет, настоящая ли копия, полная ли она и пригодна ли к использованию.

Представьте небольшой SaaS-продукт, который обслуживает веб-трафик, воркер отчетов и мониторинг на одном сервере. Однажды задача отчета внезапно использует 6 ГБ памяти. При наличии лимитов задача просто замедлится или завершится с ошибкой, воркер перезапустится, и большинство пользователей ничего не заметят. Без лимитов приложение начнет тормозить, база данных будет бороться за память, и одна плохая задача превратится в ночной сбой.

Простой пример SaaS

Представьте SaaS-продукт с 3000 активных пользователей. Люди входят в систему, загружают несколько файлов, делают поиск и получают уведомления по почте. Трафик растет в рабочее время и падает ночью. Такой нагрузке не нужна группа из нескольких машин.

Один сервер может справиться с этим вполне хорошо. На нем работают веб-приложение, PostgreSQL, Redis и два воркера. Один воркер отправляет письма и webhooks. Другой обрабатывает более медленные задачи вроде импортов, генерации отчетов и обработки изображений.

Это работает, потому что у каждой части своя понятная роль. Приложение обрабатывает быстрые пользовательские запросы. Redis хранит данные очереди и краткоживущий кэш. PostgreSQL хранит бизнес-данные. Воркеры забирают все, что замедлило бы загрузку страницы, и обрабатывают это в фоне.

Команде не нужно целый день смотреть на десятки дашбордов. Обычно хватает короткой ежедневной проверки: уровень ошибок, задержка очереди, свободное место на диске, использование памяти и рост базы. Такая привычка позволяет ловить большую часть проблем заранее. Если после деплоя ошибки выросли, они быстро откатывают изменения. Если задержка очереди растет каждый день после обеда, значит, фоновые задачи требуют внимания до того, как начнут жаловаться пользователи. Если место на диске постоянно уменьшается, они исправляют логи, резервные копии или срок хранения файлов до того, как серверу станет тесно.

Команда ждет измеримого давления. Возможно, RAM держится выше 80% несколько дней подряд даже после настройки. Возможно, импорты задерживают письма настолько, что это раздражает клиентов. Возможно, PostgreSQL требует больше дискового ввода-вывода, чем могут дать приложение и воркеры вместе. Это реальные причины разделять стек.

Пока этого нет, один хорошо управляемый сервер проще бэкапить, проще понимать и проще чинить, когда что-то идет не так.

Ошибки, из-за которых один сервер кажется хрупким

Найдите настоящее узкое место

Проверьте CPU, RAM, диск и воркеры, прежде чем платить за новый сервер.

Оценить стек

Стек на одном сервере обычно ломается по обычным причинам, а не потому, что одна машина — плохая идея. Команды делают его хрупким, когда добавляют движущихся частей быстрее, чем возникает реальная необходимость.

Первая ошибка — нагромождать инструменты с первого дня. Люди добавляют отдельную очередь, pipeline для логов, сервис метрик, менеджер процессов, кэш, узел поиска и несколько админ-панелей еще до того, как у приложения появляется стабильный трафик. Каждый дополнительный процесс хочет RAM, диск, порты, обновления и внимание. От этого не появляется зрелость. Появляется больше способов споткнуться.

Большинство ранних стеков работают лучше с меньшим числом частей: приложение, база данных, reverse proxy, один процесс воркера и базовый мониторинг. Если продукт позже заслужит больше сложности, добавьте ее тогда. До этого каждый дополнительный сервис должен отвечать на один простой вопрос: какую боль он убирает прямо сейчас?

Следующая проблема — воркеры. Веб-трафик может выглядеть нормально, а потом одна задача импорта или пакет писем загонит всю машину в swap. Сайт кажется случайным и медленным, но настоящая проблема обычно в воркере без ограничений.

Здесь помогают несколько простых правил: ограничьте параллельность воркеров, задайте тайм-ауты задач и правила повторных попыток, перезапускайте воркеры до того, как рост памяти станет смешным, и держите тяжелые задачи подальше от самых загруженных часов пользователей.

Резервные копии тоже создают ложное чувство безопасности. Многие команды говорят, что у них есть бэкапы, но они ни разу не восстанавливали их. Это не безопасность. Это галочка.

Тест восстановления находит действительно важные проблемы: отсутствующие файлы, сломанные учетные данные, плохие скрипты дампа или резервную копию, которая загружается шесть часов, хотя бизнес может позволить себе только один. Проводите тесты восстановления по расписанию и записывайте шаги, пока на команде нет давления.

Еще одна частая ошибка выглядит умно на схеме: слишком рано разделять сервисы по разным машинам, потому что это кажется более серьезным. Теперь приложение зависит от сети в тех вещах, которые раньше были локальными. Появляется больше конфигурации, больше секретов, больше точек отказа и больше отладки.

Разделяйте сервисы, когда об этом говорят цифры. Базе данных может понадобиться свой профиль диска и памяти. Воркеры могут мешать пользовательскому трафику. Это хорошие причины. Более красивая схема архитектуры — нет.

Короткая проверка перед разделением стека

Привлеките частичного CTO

Работайте с опытным CTO, который поможет оценить архитектуру и сделать процесс поставки стабильнее.

Записаться к CTO

Команды часто добавляют вторую машину, потому что первая кажется неаккуратной, а не потому, что она заполнена. Обычно это указывает на проблему в эксплуатации, а не на нехватку мощности.

Прежде чем что-то разделять, выполните четыре проверки.

Специально перезагрузите сервер и посмотрите, что произойдет.
Восстановите вчерашнюю резервную копию в свежую тестовую среду.
Посмотрите на реальное использование со временем, а не на один плохой пик.
Попросите одного человека простыми словами объяснить каждую работающую службу.

Тест с перезагрузкой показывает больше, чем люди ожидают. Сервисы стартуют не в том порядке. У воркеров не хватает переменных окружения. Подключение базы монтируется слишком поздно. Все это решаемые проблемы, и ни одна из них не требует нового сервера.

Проверка резервных копий еще честнее. Многие команды чувствуют себя в безопасности, потому что задания бэкапа завершаются успешно. А потом они пробуют восстановление и обнаруживают пропавшие секреты, сломанные пути к файлам или дамп, который не совпадает с текущей версией приложения.

Проверка мощности должна оставаться простой. Если машина большую часть дня держится примерно на 20–40% CPU, RAM не уходит в swap, а на диске еще есть комфортный запас, раннее разделение может принести вам две проблемы вместо одной. Если же деплои или всплески трафика регулярно загоняют сервер к границе, аргумент в пользу второй машины становится куда сильнее.

Последняя проверка грубая, и именно поэтому она работает. Если один сильный инженер не может объяснить весь сервер за десять минут, значит, система уже слишком запутана. Сначала разберите это. Более простая машина часто дает больше времени, чем более крупный парк.

Когда стоит добавить еще одну машину

Вторая машина должна решать конкретную боль, а не успокаивать расплывчатый страх. Если приложение, воркеры, база данных и мониторинг по-прежнему помещаются на одном сервере без особой драмы, оставьте систему маленькой.

Правильный момент для разделения — когда одна и та же проблема возвращается снова и вы можете описать ее одной фразой. «Импорты поднимают CPU и замедляют приложение». «Резервные копии мешают базе данных по дисковому вводу-выводу». «Деплои кажутся рискованными, потому что на одной машине перезапускаются все службы». Это реальные причины. «Мы, наверное, скоро вырастем» — нет.

Перед тем как добавить машину, запишите триггер и сделайте его измеримым. Переносите воркеры с основного сервера, если фоновые задачи регулярно замедляют пользовательские запросы. Переносите базу данных, если рост хранилища, нехватка памяти или задержка диска становятся постоянным узким местом. Добавляйте standby или replica, если время восстановления слишком велико для бизнеса. Разделяйте мониторинг только тогда, когда логи и метрики начинают конкурировать с продуктом за место или CPU.

Следующее разделение тоже должно быть скучным. Используйте тот же процесс деплоя, те же правила алертов и тот же стиль именования. Если одна новая машина добавляет еще три новых инструмента, вы, скорее всего, усложнили себе жизнь.

Простой пример хорошо показывает смысл. Допустим, SaaS-приложение весь день нормально работает на одном сервере, но ночные отчетные задачи делают сайт медленным на 40 минут. Сначала добавьте небольшой сервер для воркеров. Не переносите базу данных, reverse proxy и мониторинг одновременно. Одно изменение, одна причина, один план отката.

Если ваша команда решает, нужно ли разделять стек, именно такой практический разбор Oleg Sotnikov делает на oleg.is в рамках своей работы Fractional CTO. Полезный вопрос не в том, выглядит ли более крупная схема серьезнее. Полезный вопрос в том, есть ли у текущего сервера измеримое узкое место, которое действительно уберет еще одна машина.