Сливы курсов

Большая база курсов по честной ценe

Регистрация

[Слёрм] [Иван Круглов, Павел Селиванов] SRE онлайн-интенсив (2020)

Moderator

Administrator
Команда форума
Регистрация
24.09.2021
Сообщения
38 365

Автор:
Слёрм


Название:
[Иван Круглов, Павел Селиванов] SRE онлайн-интенсив (2020)
На курсе вы будете:

Строить
микросервисов, разработаете архитектуру и инфраструктуру, которая их обеспечит,


Ломать
нагрузкой.
Чинить



Изучать



Требования к участникам:- Любой язык программирования: уровень Junior;- Prometheus: навыки мониторинга;

- Kubernetes: навыки работы в кластере.

Тема №1: Основные принципы и методы SRE


Что нужно чтобы стать SRE?

DevOps vs SRE

Почему разработчики ценят SRE и очень грустят, когда в проекте их нет

SLI, SLO и SLA

Error budget и его роль в SRE




Тема №2: Дизайн распределенных систем


Архитектура и функционал приложения

Non-Abstract Large System Design

Operability / Design for failure

gRPC или REST

Версионирование и обратная совместимость




Тема №3: Как принимают проект SRE


Лучшие практики от SRE

Чек-лист приема проекта

Логирование, метрики, трейсинг

Забираем CI/CD в свои руки




Тема №4: Проектирование и запуск распределенной системы


Обратное проектирование — как работает система?

Согласовываем SLI и SLO

Практика capacity planning

Запуск трафика на приложение, наши пользователи начинают им «пользоваться»

Запускаем Prometheus, Grafana, Elastic




Тема №5: Monitoring, Observability and Alerting


Monitoring vs. Observability

Настраиваем мониторинг и алертинг с Prometheus

Практический мониторинг SLI и SLO

Symptoms vs. Causes

Black-Box vs. White-Box Monitoring

Распределенный мониторинг доступности приложений и серверов

4 золотых сигнала (обнаружение аномалий)




Тема №6: Практика тестирования надежности систем


Работа под давлением

Failure-injection

Chaos Monkey




Тема №7: Практика incident response


Алгоритм управления стрессом

Взаимодействие между участниками инцидента

Постмортем

Knowledge sharing

Формирование культуры

Контроль неисправностей

Проведение blameless разбора полетов




Тема №8: Практика управления нагрузкой


Балансировка нагрузки

Отказоустойчивость приложений: retry, timeout, failure injection, circuit breaker

DDoS (создаем нагрузку) + Cascading Failures




Тема №9: Реагирование на инциденты


Разбор полетов

Практика On-Call

Различные типы аварий (тестирование, изменение конфигурации, сбой оборудования)

Протоколы управления инцидентами




Тема №10: Диагностика и решение проблем


Журналирование

Отладка

Практика анализа и отладки на нашем приложении




Тема №11: Тестирование надежности систем


Нагрузочное тестирование

Тестирование конфигураций

Тестирование производительности

Canary release




Тема №12: Самостоятельная работа и ревью


Реальные кейсы

Проверка спикерами



 

Партнеры

Верх Низ