Уровни критичности инфраструктуры

По своему IMHO выделяю несколько уровней критичности сетевой инфраструктуры от tier1 до tier 4, но в отличие от ЦОДов тут 1 уровень самый крутой, а 4 самый слабый

Что это такое

Это попытка разделить домашнюю инфраструктуру/хомлабу на компоненты с различным уровнем критичности и организовать работу так, чтобы система была максимально надежной и все не рушилась при выходе из строя в самый неподходящий момент

Общие правила

  1. Для каждого сервиса определяется его уровень и применяются правила этого уровня
  2. Уровень определяет физическое расположение, правила энергопитания, зависимости от других уровней, режимы дублирования и резервирования
  3. Уровень более высокого уровня не зависит от нижнего уровня, могут быть расширенные функции, но то, что указано в последнем столбце должно работать независимо
  4. Надежность и uptime tier 1 должны быть максимальными
  5. При работе от ИБП в угоду уровням более высокого уровня можно отключать уровни более низкого
  6. Tier боле высокого уровня может управлять tier более низкого, например, отдать команду на выключение или включение
  7. Резервные копии более высокого уровня не должны храниться на более низком, например, конфиг роутера выгружаем в гитлаб
  8. tier 3 и 4 делится относительно условно т.к. там нет каких-то сильных аппаратных отличий, но определяет в том числе порядок запуска и остановки серверов
  9. Основные компоненты, как-то PVE ноды, роутеры, NAS сервера имеют статический IP адрес
  10. На tier 1 и tier 2 стараемся сокращать количество оборудования, в том числе количество свитчей, в идеале только проводное соединение
  11. Взаимное влияние на tier 1 и tier 2 должно быть минимальным, с полным резервированием под конкретный сервис. Это значит, что лучше взять отдельное устройство под роутер, отдельное под сервер УД и т.д. Сборка прошивки EspHome не должна съедать все процессорное время, выделяемое под более важные задачи, можно поиграться с приоритезацией

Уровни

Уровень Что в него входит Отказоустойчивость Энергопотребление и питание Что он обеспечивает
tier 1 Роутер, WiFi, базовая сеть Дублирование Самое низкое, приоритезация питания, отдельный ИБП Интернет, возможность загуглить проблему или скачать что-то для tier 2
tier 2 Сервер умного дома и инженерные системы, менеджер паролей, базовый мониторинг Бэкапирование, дублироваие Низкое, Отдельный ИБП Работа дома и всей инженерки, менеджер паролей, мониторинг всех систем и уведомления
tier 2.5 Traefik, OpenBao, Consul, Authentik Кластеризация ИБП. Общий пул tier 2.5 - tier 4 Общие сервисы, должны быть доступны при включении хотя бы одного узла PVE кластера
tier 3 NAS, PBS Бэкапирование, наличие запасных частей и перенос на другие узлы ИБП. Общий пул tier 2.5 - tier 4 Сетевое хранилище как самостоятельное решение и хранение файлов для tier 4, в том числе диски виртуальных машин
tier 4 Все остальные сервисы, которые могут быть остановлены Бэкапирование и кластеризация на уровне PVE и PBS ИБП. Общий пул tier 2.5 - tier 4 Все остальное, что не поало в предыдущие уровни

Некоторые компоненты могут быть на разных уровнях, в зависимости от критичности и реализации.

Способы повышения надежности

  1. Аппаратный файловер, пока для меня не актуально
  2. VRRP, использую очень активно
  3. Кластеризация, использую где это возможно
  4. Кластеризация PVE, активно использую
  5. Кластерные ФC, пока только двигаюсь в этом направлении

Примеры

  1. На роутере есть DNS сервер без блокировки рекламы, в сети на tier 4 уровне имеется adguard, при помощи VRRP ip адрес 10.110.0.53/23 назначается или adguard или роутеру если adguard не способен отдавать DNS записи. Таким образом, даже при падении tier 4 пользователи смогут выходить в интернет, путь и с рекламой, но зато будут работать мессенжеры и гуглинг, даже заказать новые компоненты в магазине можно.
  2. На уровне tier 2.5 каждая нода PVE содержит свой экземпляр менеджера секретов и реверс прокси, при помощи VRRP при наличии хотя бы 1 узла PVE уже может работать веб прокся и запускаться сервисы
  3. Для аппаратного роутера настраиваю программный со все тем-же VRRP. Он может быть на tier 3/4, но все равно обеспечивает повышение надежности, так, в случае выхода из строя роутера останется хоть какой-то вариант выйти в интернет
4 лайка

Очень интересная тема. Спасибо, что делитесь собственным опытом.

Тут имеется ввиду Включение или ОТключение?
Под “общие сервисы” тут понимаются как раз перечисленные 4 (Traefik,…)?
Зачем придуман tier 2.5? Почему было не сделать уровни 1 - 5?

Включение

Хороший вопрос, в ТГ частично затрагивал его. Изначально его не выносил в отдельный уровень и для большинства будет достаточно 4 уровней.
В моем случае я выделил в отдельный подуровень т.к. использую кластер PVE и заморочился с кластеризацией сервисов, поэтому, формально относится к 3 уровню, но архитектурно ближе к 2.

Поэтому, условно, считаем 4 уровня с опциональными 2.5, да и 2, наверное, не у всех есть.

1 лайк