SREについて改めて学習する
はじめに
私は現在SREとして働いているのですが、改めて組織の活動を考えたり、メンバとディスカッションをしたいなと思うようになりました。そのために、まずは自分でSREを再学習しようと思い、参考資料をかき集めました。今回はその備忘録として残すメモになります。
SREの概念理解
SRE サイトリライアビリティエンジニアリング ――Googleの信頼性を支えるエンジニアリングチーム
いわゆるSRE本。だいぶ前に読みましたが、基本的な概念の理解には非常に良かった記憶があります。一方で、Googleのナレッジなので私の現場で参考になるかは微妙だなと思うところがあった印象です。
SREの探求 ――様々な企業におけるサイトリライアビリティエンジニアリングの導入と実践
SRE組織の実践例が書いてある。未読なので読んでみたい本です。
SLOアラートの実装にとても参考になりました。私が読んだSRE本は古かったので、こちらをメンバと一緒に輪読しようかなと。
What is Site Reliability Engineering
Googleの公式サイト。先ほどのSRE Workbookの大元のサイト。参考として記載しました。
SRE組織
メルカリ
早くからSREを立ち上げているメルカリは外せないと思って調べました。このページに記載の参考記事もとても参考になりました。
はてな
はてなもSREを早くから導入していて、組織変遷がとても参考になり、共感できる部分も多くありました。今後の活動の参考にしたいです。
サイバーエージェント
こちらのSREの成熟度評価は参考になりました。SREを開発側に理解してもらうのは大変であり、啓蒙活動の参考にします。
Money Forward
Platform SRE, Enabling SRE(Embedded SRE), Product SREを明確にしようと思い、見つけた記事です。SREを役割にしないという言葉がとても刺さりました。
x-tech5
SREの関わり方についてMoney Forward以外の記事もみようと思い、出てきた記事です。
ここに置いてある資料は参考になるものが多いです。全部載せているとキリがないので勉強会のページのみリンクとして記載しておきます。
必要知識
SLI・SLO
SLO サービスレベル目標 ―SLI、SLO、エラーバジェット導入の実践ガイド 「SLO サービスレベル目標」 出版記念イベント
こちらの動画の方が解説付きでわかりやすく、著者の解説付きなのでこの紹介で事足りました。
Platform Engineering
私もCloudNative Daysでお世話になったjacopenさんがやっている勉強会。SREとPlatform Engineeringの思想は重なるところが多いと私は考えていて、こちらの勉強会の資料も追えていないのがいくつかあるので今度読む。
これからのPlatform Engineeringを支えるコンテナ×Backstageの真価
Platform Engineeringの文脈の話だが、SREについても触れていて特にPerformance Indicatorの部分は参考になりました。
モニタリング・オブザーバビリティ
オブザーバビリティについてよくまとまっている本なのでおすすめです。
(言い訳になりますが)業務で忙しくなり、こちらの本は途中までしか読めていません。ただ、重要なこと、共感することばかりでしたのでもう一度読み直します。
性能
達人が教えるWebパフォーマンスチューニング 〜ISUCONから学ぶ高速化の実践
積読本で、読まないといけないと思いつつ読めていない。自戒のために載せました。
セキュリティ
セキュアで信頼性のあるシステム構築 ―Google SREが考える安全なシステムの設計、実装、保守
SREの本で検索すると出てくるので余裕があるときに読みたいです。
まとめ
本についてはまだまだ読めていないものばかりですが、スライド類はほぼ読めました。他の組織も同じなんだなあと思うところが多々あり、安心材料になりつつ、自組織の課題がある程度わかってきました。早めにグループメンバと共有し、ディスカッションし、SRE活動をより良いものにしていきたいと思いました。今回は雑な記事になりましたが、以上です。
最後まで読んでいただきありがとうございました。