Google Skill Boost(SRE編)
はじめに
久しぶりの投稿になってしまいました。そして今日で2024年が終わってしまうという、、早いですね。
今回の記事は前回の基礎編の続きで、Google Skill BoostでSREのLearning Pathを学習したというものです。私の職種はSREなので自分の職種に関するGoogle Cloudの知識を身につけたくこの講座を選択しました。実は11月中に勉強自体は終わっていたのですが、バタバタして記事にすることができませんでした。
Learning Pathのざっくりとした内容、感想、個人的にあとから見返したいキーワードを記載しました。受講を考えている方やSREを学ぶ上でのキーワードを知りたい人の参考になれば幸いです。
DevOps Engineer, SRE Learning Path
このラーニングパスは13個で構成されています。
- A Tour of Google Cloud Hands-on Labs
- Google Cloud Fundamentals: Core Infrastructure
- Developing a Google SRE Culture
- Reliable Google Cloud Infrastructure: Design and Process
- Logging and Monitoring in Google Cloud
- Observability in Google Cloud
- Getting Started with Terraform for Google Cloud
- Cloud Operations and Service Mesh with Anthos
- Set Up an App Dev Environment on Google Cloud
- Implement DevOps Workflows in Google Cloud
- Using DevSecOps in your Google Cloud Environment
- Monitor and Log with Google Cloud Observability
- Build Infrastructure with Terraform on Google Cloud
ひとつひとつ紹介すると冗長になるので、簡単にグルーピングして紹介します。
基礎的なおさらい
講座1,2は基礎編のおさらいです。デモの使い方やインフラの基礎の話で前回の基礎編と重複するため割愛します。
SRE文化の醸成
講座3はSREについての学習になります。SREの背景やSLOなどの用語の解説などをしているのでSREを知らない人には良い学習になると思います。私は、SREについて改めて学習するで復習済みなので軽く流してみていました。
一点よくある内容と違って、変化の心理学について説明していたのが印象的でした。 以下の4つに分類し、それぞれにどのようなアクションを取るということを説明していました。
- ナビゲーター
- 成功を助けてくれる人
- 積極的に巻き込む
- 批評者
- 情熱を持っていて正当な恐怖を持つ
- 無視せず説得に時間をかける、成功すると強力な擁護者になる
- 被害者
- 感情のはけ口を必要としている人
- 共感を持って話を聞く
- 傍観者
- 気持ちがわからないのでよく話をして気持ちを確かめる
他にも脳科学についても少し説明しています。興味がある方はこちらの動画をぜひみてください。
アーキテクチャ
講座4つ目は信頼性のあるインフラ設計について説明しています。この講座で説明されていることは、アーキテクチャ全般で結構内容が濃かったです。キーワードや印象に残った項目を以下列挙しておきます。
- SLI/SLO/SLAといったサービス定義
- よくある用語のため割愛
- マイクロサービスアーキテクチャ
- よくある用語のため割愛
- CI/CDパイプライン
- Source RepositoryのコードをCloud BuildでビルドしてArtifact Registryへプッシュ
- ストレージやDBの選定
- 基礎編であったようなDB、NoSQLなどなどの決定方式を説明しています
- 決定チャートやサービスのポートフォリオが今後参考になりそうです
- ネットワークアーキテクチャ
- VPCやロードバランサの設計はよくあるものでした、もう少しサブネットの設計とか語ってほしかったです。
- オンプレを使う環境で働くことになったらこのVPNの動画が役に立ちそうです
- デプロイ
- デプロイ先としてGKE, Cloud Run, App Engine, Cloud Functionが紹介されています
- App Engineは何のためかなあと思っていたが特にモバイル開発などには便利なサービスと私は理解しました
- 可用性
- 可用性はSPOF, exponential backoff, サーキットブレーカーなどの用語の解説
- DRはGKEやDBをマルチリージョンで作って、ホットスタンバイなどの構成にしておくのが基本のようです
- セキュリティ
- ネットワークのセキュリティとしてロードバランサを挟み、場合によってはCloud Armorを使って防御するのが良さそうです
- メンテナンスやモニタリング
- ログ・プロファイル・トレースをハンズオンで体験できてよかったです
オブザーバビリティを学ぶ
5,6,8はオブザーバビリティに属する座学かなと思います。もとオブザーバビリティ屋さんなので少し期待していたのですが、結構座学が多く、ハンズオンもログを見たりアラートを上げたりすることが中心でした。トレースやプロファイルがコースにあっても良いと思いました。
使うサービスは、Monitoring(ログ・アラート・Synthetics Monitoring・SLO)やError Reportingでした。AWSのCloud WatchやDatadog時もそうでしたが、監視サービスのUIはサービスによって全然違い使いづらいと思う時も少々あるため、慣れるのに多少時間がかかりそうです(あくまでも個人的な意見)。ただ、ログは簡単な設定で複数プロジェクトをまとめてみれるのがとても便利だなと思いました。組織管理として監査ログを収集したり閲覧できるようにしたりする必要があるので自分の仕事にも活かしてみようと思います。 あと、さすがSREの発症ということがあって、アラートも作ってくれるし、稼働状況も見れるし、SLOのサービスは使いやすいなと思いました。
IaCとしてterraformを使う
terraformで簡単にリソースを作成したり、stateをバケットに移動したりする内容でした。terraformを使ったことない人は初学としていいと思います。知っている人には物足りないと思います。
Google Cloudが推奨するのはterraformなのかと少し驚きました。昔は相性が悪いと聞きましたが、やっていて特にそう思うことはなかったので改善されたようです。
ラボにて座学の復習をする
講座9~13番目はすべてラボで構成されています。こちらは今までのハンズオンとは違い、ゴールとマイルストーンだけ与えられてそれを時間内にクリアするというものです。コマンドを与えられてないと意外と分からなくて、前のものを復習するいい機会でした。コースの最後に配置されているのが絶妙で良いと思いました。ちなみに、チェックポイントをクリックするとどこがダメなのかヒントをくれるので、わからない人はそれを頼りにやってみるのもありだと思います。
まとめ
以上、SREの学習のコースでした。各用語をきちんと説明してくれているので初学者でも受講できるコースです。一方、中級者には知っている内容も多分にあり、ハンズオンもやると時間がかかるので取捨選択して受講した方良いと思います。ちなみに08のAnthosに56時間と書いてあって驚愕しましたが、ただの間違いです。
私個人としては、
- Google CloudのUIに慣れたこと
- SREが扱うようなサービスを知れたこと
- 設計やアーキテクチャの参考になる情報を得られたこと
が良かったと思います。デメリットとしては、時間がかかること、英語で聴かないといけないことくらいでしょうか。
せっかく入門したので知識を定着させるためにも業務でもGoogle Cloudを使ってみたいと思います。何か得られたらまた記事にしようと思います。あと、セキュリティに関するLearning Pathを受講したので時間があったらまた記事を書きます。
最後まで読んでいただきありがとうございました。また、今年の記事はこれで最後です。本ブログを読んでくださった方ありがとうございました。プライベートが忙しくなり、勉強したいこと・読みたい本・書きたい記事たくさんあるのに実行できないもどかしさを感じています。そんな中でも来年は自分のペースを掴んで投稿するよう頑張りますので引き続き購読よろしくお願いします。