В последнее время я помогал двум людям подготовиться к переходу из разработки в Site Reliability Engineering, и вот список ресурсов на английском, которые я им рекомендовал:

  1. The System Design Primer - предлагаю начать с раздела “System Design topics start here”, а затем перейти к примерам. Таким образом вы узнаете, какие компоненты можно использовать в качестве строительных блоков и какие у них есть достоинства, недостатки и компромиссы.

  2. Главы из книги Site Reliability Engineering: Monitoring Distributed Systems и Service Level Objectives.

  3. Crack the System Design Interview

  4. Back of the Envelope Calculation for System Design Interviews

  5. Non-Abstract Large System Design из SRE Workbook - очень подробный пример, который детально объясняет подход которому следует опытный SRE во время процесса проектирования системы.

Пройтись по этим пяти ссылкам с достаточным вниманием должно быть достаточно, чтобы получить фундаментальные знания по системному дизайну в целом и подготовиться к интервью.

Пример иллюстрации согласованного хеширования
WikiLinuz, CC BY-SA 4.0, via Wikimedia Commons

Траблшутинг

Здесь вы найдёте хорошую шпаргалку по траблшутингу, основанную на интервью в Meta (Facebook) на позицию Production Engineer. Отличие Production Engineer в Meta от SRE в Google в том, что в Meta больший упор идёт на Linux internals и сети, а в Google больше на системный дизайн и программирование.

Чеклист SRE

mxssl/sre-interview-prep-guide - полный чеклист всего что вам нужно знать как SRE, за исключением программирования. Если вы изучите каждый пункт этого (довольно обширного) списка, вы будете готовы к собеседованию в качестве SRE в любую компанию Big Tech, пройдя барьер технических собеседований в FAANG (Meta\Facebook, Amazon, Apple, Netflix и Alphabet\Google).