[Слёрм] [Иван Круглов, Павел Селиванов] SRE онлайн-интенсив (2020)

Moderator · 17.10.2022

Автор:
Слёрм

Название:
[Иван Круглов, Павел Селиванов] SRE онлайн-интенсив (2020)
На курсе вы будете:

Строить
микросервисов, разработаете архитектуру и инфраструктуру, которая их обеспечит,

Ломать
нагрузкой.
Чинить

Изучать

Требования к участникам:- Любой язык программирования: уровень Junior;- Prometheus: навыки мониторинга;

- Kubernetes: навыки работы в кластере.

Тема №1: Основные принципы и методы SRE

Что нужно чтобы стать SRE?

DevOps vs SRE

Почему разработчики ценят SRE и очень грустят, когда в проекте их нет

SLI, SLO и SLA

Error budget и его роль в SRE

Тема №2: Дизайн распределенных систем

Архитектура и функционал приложения

Non-Abstract Large System Design

Operability / Design for failure

gRPC или REST

Версионирование и обратная совместимость

Тема №3: Как принимают проект SRE

Лучшие практики от SRE

Чек-лист приема проекта

Логирование, метрики, трейсинг

Забираем CI/CD в свои руки

Тема №4: Проектирование и запуск распределенной системы

Обратное проектирование — как работает система?

Согласовываем SLI и SLO

Практика capacity planning

Запуск трафика на приложение, наши пользователи начинают им «пользоваться»

Запускаем Prometheus, Grafana, Elastic

Тема №5: Monitoring, Observability and Alerting

Monitoring vs. Observability

Настраиваем мониторинг и алертинг с Prometheus

Практический мониторинг SLI и SLO

Symptoms vs. Causes

Black-Box vs. White-Box Monitoring

Распределенный мониторинг доступности приложений и серверов

4 золотых сигнала (обнаружение аномалий)

Тема №6: Практика тестирования надежности систем

Работа под давлением

Failure-injection

Chaos Monkey

Тема №7: Практика incident response

Алгоритм управления стрессом

Взаимодействие между участниками инцидента

Постмортем

Knowledge sharing

Формирование культуры

Контроль неисправностей

Проведение blameless разбора полетов

Тема №8: Практика управления нагрузкой

Балансировка нагрузки

Отказоустойчивость приложений: retry, timeout, failure injection, circuit breaker

DDoS (создаем нагрузку) + Cascading Failures

Тема №9: Реагирование на инциденты

Разбор полетов

Практика On-Call

Различные типы аварий (тестирование, изменение конфигурации, сбой оборудования)

Протоколы управления инцидентами

Тема №10: Диагностика и решение проблем

Журналирование

Отладка

Практика анализа и отладки на нашем приложении

Тема №11: Тестирование надежности систем

Нагрузочное тестирование

Тестирование конфигураций

Тестирование производительности

Canary release

Тема №12: Самостоятельная работа и ревью

Реальные кейсы

Проверка спикерами

sekret · 14.10.2023

Дайте ссылку

Moderator · 14.10.2023

sekret сказал(а):
Дайте ссылку

Добрый день ,отправлено в личные сообщения

Сливы курсов

[Слёрм] [Иван Круглов, Павел Селиванов] SRE онлайн-интенсив (2020)

Moderator

Administrator

sekret

New member

Moderator

Administrator

Партнеры

Онлайн статистика

Новые пользователи

Сливы курсов

[Слёрм] [Иван Круглов, Павел Селиванов] SRE онлайн-интенсив (2020)

Moderator

Administrator

sekret

New member

Moderator

Administrator

Партнеры

Онлайн статистика

Новые пользователи

Stay Connected