- Регистрация
- 24.09.2021
- Сообщения
- 38 365
Автор: Слёрм Название: [Иван Круглов, Павел Селиванов] SRE онлайн-интенсив (2020) На курсе вы будете: Строить микросервисов, разработаете архитектуру и инфраструктуру, которая их обеспечит, Ломать нагрузкой. Чинить Изучать Требования к участникам:- Любой язык программирования: уровень Junior;- Prometheus: навыки мониторинга; - Kubernetes: навыки работы в кластере. Тема №1: Основные принципы и методы SRE Что нужно чтобы стать SRE? DevOps vs SRE Почему разработчики ценят SRE и очень грустят, когда в проекте их нет SLI, SLO и SLA Error budget и его роль в SRE Тема №2: Дизайн распределенных систем Архитектура и функционал приложения Non-Abstract Large System Design Operability / Design for failure gRPC или REST Версионирование и обратная совместимость Тема №3: Как принимают проект SRE Лучшие практики от SRE Чек-лист приема проекта Логирование, метрики, трейсинг Забираем CI/CD в свои руки Тема №4: Проектирование и запуск распределенной системы Обратное проектирование — как работает система? Согласовываем SLI и SLO Практика capacity planning Запуск трафика на приложение, наши пользователи начинают им «пользоваться» Запускаем Prometheus, Grafana, Elastic Тема №5: Monitoring, Observability and Alerting Monitoring vs. Observability Настраиваем мониторинг и алертинг с Prometheus Практический мониторинг SLI и SLO Symptoms vs. Causes Black-Box vs. White-Box Monitoring Распределенный мониторинг доступности приложений и серверов 4 золотых сигнала (обнаружение аномалий) Тема №6: Практика тестирования надежности систем Работа под давлением Failure-injection Chaos Monkey Тема №7: Практика incident response Алгоритм управления стрессом Взаимодействие между участниками инцидента Постмортем Knowledge sharing Формирование культуры Контроль неисправностей Проведение blameless разбора полетов Тема №8: Практика управления нагрузкой Балансировка нагрузки Отказоустойчивость приложений: retry, timeout, failure injection, circuit breaker DDoS (создаем нагрузку) + Cascading Failures Тема №9: Реагирование на инциденты Разбор полетов Практика On-Call Различные типы аварий (тестирование, изменение конфигурации, сбой оборудования) Протоколы управления инцидентами Тема №10: Диагностика и решение проблем Журналирование Отладка Практика анализа и отладки на нашем приложении Тема №11: Тестирование надежности систем Нагрузочное тестирование Тестирование конфигураций Тестирование производительности Canary release Тема №12: Самостоятельная работа и ревью Реальные кейсы Проверка спикерами |