Алексей Кирпичников
@ Контур
Екатеринбург

Аварии помогают учиться

  • Зал: ФОЙЕ ОПЦ
  • Категории: Разработка
  • Секции: Стачка.DevOps

Описание:

За три последних года в Контуре произошло примерно 1000 факапов разной степени эпичности. Среди них, например, 36% были вызваны выкатыванием некачественного релиза в продакшен, а 14% — работами по обслуживанию железа в дата-центре.

Откуда я все это знаю? Из архива отчетов, которые мы называем постмортемами. Постмортемы пишут дежурные инженеры, которые отреагировали на уведомление об аварии и первыми начали разбираться в ее причинах.

Зачем нашей команде этот архив? Зачем мы заставляем инженера, который несколько часов без сна чинил сложную систему, еще и написать несколько страниц текста об этом? Эти знания помогают нам двигать инфраструктурную разработку в правильном направлении. Чем нужно заняться прямо сейчас — улучшать систему сбора метрик или отбирать у разработчиков админские права на серверах? От чего будет больше пользы — нового инструмента для нагрузочного тестирования или внедрения канареечного деплоя?

В докладе я расскажу о том, как написать полезный постмортем: кто должен его писать, что обязательно нужно упомянуть и как внедрять эту сложную DevOps-практику в большой компании, где еще несколько лет назад никто ни о каких постмортемах даже не слышал. Разберем пару примеров настоящих факапов — признайтесь, вы же любите слушать истории о том, как кто-то облажался :)

О спикере

Алексей Кирпичников

@ Контур
Екатеринбург

Я работаю в Контуре и делаю инфраструктуру-как-сервис для разработчиков продуктов Контура. В мою сферу интересов входит сбор метрик, алертинг, агрегация логов, service discovery, деплой, хостинг и все остальное, что нужно разработчику, чтобы сосредоточиться на развитии сервиса и не тратить время на эксплуатацию. До Контура я был тимлидом команды разработки Яндекс.Такси и довел инфраструктуру бэкендов этого сервиса от основания до миллионного заказа.