Observability Conference Tokyo 2025 のアーカイブ動画を見ました
はじめに
2025/10/27にObservability Conference Tokyo 2025が開催されました。 本カンファレンスにはコアスタッフとして関わっていたため、各セッションを当日見ることができませんでした。 幸いにもアーカイブ動画が公開されたので、今回アーカイブ動画をちょこちょこ見ながら勉強させていただきました。 本記事はその学習メモになります。
なお、コアスタッフでの参加について興味がある方は、Observability Conference Tokyo 2025 にコアスタッフとして参加しましたをご参照ください。
各セッションのメモ
各セッションのアーカイブ動画やスライド資料は、公式サイトのタイムテーブルの各セッションから見つけることができます。 以下、これを見ながら学んだこと、印象に残ったことをメモがてら書きます。 すべてを見て、すべて面白かったのですが、全部書ききれないので抜粋させていただきます。ここに書いていないセッションも面白かったのでぜひ見てください。
Affordable Observability: Strategy to Implementation
Lizさんのキーノートです。本当は現地で聞きたかった... 内容に入る前に、事前のインタビューブログを紹介したいです。
Liz: オブザーバビリティは本質的に投資です。
特にこの1行です。投資の場合、投資する額に見合った価値があるか、あるいはあったかを必ず評価するのと同様に、オブザーバビリティも費用対効果を考えることが重要だと改めて気がつきました。 もちろん全部のデータを蓄えればUnknown -> Knownにできるかもしれないが、必ずコストがかかります。 コストがかかるからこそ、目的を持ったものに絞るという判断およびこれはいらないと切り捨てる判断が非常に重要だと再認識しました。
そして、セッションの内容も費用対効果のあるオブザーバビリティについて、そして組織に浸透させるにはどうしたら良いのかについて説明していただきました。 90 Days Roadmapの通り90日ではできていませんが、自分の進んでいる道が間違いがないこと、これから進む先に何が必要になるのか良いヒントをいただきました。
Q&Aも面白く、印象に残っているのは「テイルサンプリングは有用だけどメモリにデータを蓄えるからコストがかかる」と「トレースはリクエスト単位で分析できるのに対して、プロファイルはアプリケーション・プロセス・関数単位で分析できる。将来的には両者が紐づけて分析できる」あたりです。かなり意訳して書いているので、よろしければ動画をご覧ください。
オブザーバビリティが育む開発者のシステム理解と好奇心
このセッションはかなりの方から高評価でしたし、私も今回おすすめのセッションです。オブザーバビリティツールを開発者に使ってもらうために行なった取り組みを紹介しています。
私が一番印象に残っているのはメンタルモデルの違いです。
- 開発者のメンタルモデル:コードやドキュメント中心
- SRE/運用者のメンタルモデル:ダッシュボード中心
両者の違いを的確に捉えていて、とても納得感のある説明でした。その後の取り組みもとても参考になって、プレビュー環境や負荷試験は自分のバックログに早速入れました。
可観測性は開発環境から、開発環境にもオブザーバビリティ導入のススメ
開発環境でトレースを取得し、オブザーバビリティを組織に広めていった話です。 自分もオブザーバビリティを広める立場にあり、状況が自分と重なったのでとても共感できるセッションでした。(私はもっと時間がかかっていますが...)
ひとつ前に紹介したセッションでも、まずは開発者に使ってもらうことが重要で、そのためには日頃から触れさせないといけないのだなと痛感しました。 オブザーバビリティはコストがかかるのでプロダクション環境にだけ導入しがちですが、コストがかかってもやるべきだと改めて思いました。 ダッシュボードとかもそれに合わせて整備しないと。
現場の壁を乗り越えて、「計装注入」が拓くオブザーバビリティ
今回カンファレンスのスタッフでご一緒させていただいた木村さんのセッションです。 タイトルにある計装注入とは、
言語ごとに異なる自動計装の仕組みを自動的に注入するために、コンテナ・プロセス単位でシステム機能を利用する計装方式
と定義しています。具体的には「OpenTelemetry Operator」および「OpenTelemetry Injector」について紹介しています。歴史や仕組みなどをかなり調べてわかりやすく説明してくださっていて、最近のOpenTelemetryの動向を追えていなかった私には非常に参考になるセッションでした。
アプリケーション言語やOpenTelemetryの知識に依存せずに計装できるようになるのはとても便利であるものの、当然制約があります。なのでプラットフォーム側でこの技術を使ってトレースを取得してくれるようになったら嬉しいなとも思いました。
最後にちょっと触れていた「eBPF計装」も気になるので今後も動向を追うようにしないといけないですね。
オブザーバビリティの効果を可視化するIncident Response Metricsの実践
高村さんはよくカンファレンスで見かける方で、いつもインシデントレスポンス周りで新しいことを学ばせていただいています。
MTTR(復旧時間)はデータ変動性が高いため改善指標には不適切
今回自分が持ち帰ったのはこちらです。 私の環境だと、インシデントレスポンスのメトリクスを取るところまで手が伸びていないのが現状なので、MTTRを使うという発想はまだなかったです。 ただ、いざ観測しようとなった時にMTTRで指標を測ってそうだなと思い、この言葉を心に刻んで、観測する際は改めてこのセッションで勉強し、TTXメトリクスを取得しようと思います。
ちなみに、このセッションで紹介されていた本もしっかり積んでおきました。
プロファイルとAIエージェントによる効率的なデバッグ
オーガーナイザーの一人である山口さんのセッションです。タイトルの通りプロファイルに関する説明です。 プロファイルに関しては知ってはいるものの、関数単位で必要になる機会にまだ出会っていなく、敬遠していた分野でした。
分析するには技術や知識が必要
セッション内のこの言葉がまさに当てはまります。ただ、このセッションではAIエージェントでわかりやすくプロファイルを理解し、改善する事例を示していました。
テレメトリーが個別事例を表現するコンテキストとなる
これは、まさに納得の言葉です。解決したい事象のコンテキストになるよう、かつプロファイルの重要性を今回理解することができたので、ぜひ活用していきたいと思います。
ピーク時165万スパン/秒に立ち向かえ!オブザーバビリティコストを効率化する ABEMA におけるトレースサンプリングの実践的事例
こちらもオーガナイザーの一人である逆井さんのセッションです。最近私もサンプリングを考えたり、Datadogを触ったりすることが多く、共感できる内容でした。 今後参考にしておきたいことは、
- コストを考え、本当に必要なスパンを選択する
- Datadog Agentとバックエンドの間にOpenTelemetry Collectorを挟んでテイルサンプリングする
- DatadogのRetention Filterを活用する
スパンのコストが大きくなったらぜひとも見返したいセッションでした。
オブザーバビリティと共に育てたID管理・認証認可基盤の歩み
私も認証基盤のSREをやったことがあるので非常に共感できるセッションでした。 自分のやっていた構成と似ていて自分の設計が間違っていなかったことの確認にもなりました。
このセッションで一番面白かったのは、カルマンフィルターを用いてオブザーバビリティを説明していたところです。 私も制御工学のさわりを勉強しましたが、とてもわかりやすく解説していたのが印象に残っています。
3つ事例を紹介していましたが、最後の事例である、極端に失敗しているユーザーのアクションを把握し、カスタマーサクセスに連携し、プロアクティブにサポートしていたのが一番良かったです。ぜひまねたいです。
おわりに
セッションが公開されてからちょこちょこと見て、気がついたら開催1ヶ月後のブログになってしまいました。もう少し早く見ておくべきだった...
ここに書いていないものも含めて、すべて面白いセッションでした。皆、同じような悩みを抱え、色々な解決をしていて、共感をしたり、これはまねたいと思うものばかりです。 ちなみに、公式サイトを私が修正してYoutubeや資料を閲覧できるようにしました。 まだセッションを見られていない方はぜひとも公式サイトのタイムテーブルからアーカイブ動画をご参照ください。
最後まで読んでいただきありがとうございました。