こんにちは、MSPセクションの屋部です。
今回、東京で開催された「Datadog Summit Tokyo」に参加してきました!
Datadog Summit Tokyo
イベント名 | Datadog Summit Tokyo |
開催日時 | 2024年10月16日(水) |
イベント開催時間 | 10:00〜17:00 |
イベント会場 | 赤坂インターシティコンファレンス AICCホール&カンファレンスホールA 東京都港区赤坂1-8-1 赤坂インターシティAIR 4F |
公式サイト | https://www.datadoghq.com/ja/summit/tokyo24/ |
本イベントの最初のアジェンダとして、Datadogの方からの挨拶とDatadogのこれからの歩み、そしてこれからの展望についてのお話をいただいた後、基調講演としてお客様の実際のDatadog活用例についてプレゼンを拝聴いたしましたので、概要についてご紹介できたらと思います!
開発チームと歩むSLO監視文化の立ち上げジャーニー
タイトル | 開発チームと歩むSLO監視文化の立ち上げジャーニー |
登壇者 | 株式会社ワンキャリア 渡邉 美希パウラ 様 |
この講演では、ワンキャリアが過去にSLI/SLOを定義し運用した経験と、それに伴う課題と解決策について語ります。初期のSLO監視運用の課題として、監視の定着化の難しさや開発チームの工数増加などがありました。これらの課題を解決するためにSLI/SLOの定義を見直し、Datadogを用いたSLOの可視化と監視の自動化を行いました。 また、この経験から得た学びとして、開発チームとの連携の重要性やSLO運用の難しさについて触れます。 最後に、今後の展望でユーザーにとって重要な画面の監視強化の取り組みについて話します。
https://www.datadoghq.com/ja/summit/tokyo24/agenda/customer_2/
公演内容
SLO監視運用立ち上げに対する課題と改善から見えてきたSLO監視の考え方について、実際に経た経験についての公演でした。
初めはSREチームで、SLO遵守状況を確認→週次で確認し、SLO違反したものに対して分析という形で運用を開始したのですが、優先度がなかなか上がらず、運用が疎かになってしまうという過去があったとのこと。
そこで、どうして優先順位が上がらないかについて考え、「SREの民主化」というキーワードのもと以下の4つの施策を実施しSLO運用の再構築を行なったそうです。
- ナレッジの共有
- 運用負荷の低減
- カルチャーの構成
- 人事評価指標との連動
元々はSREチームのみで行なっていた運用でしたが、SLO運用に対する勉強会や定義、情報の共有を開発チーム、さらには経営層をも巻き込んで実施することで、全員が同じ目線を持つことに成功したという内容でした。
感じたこと
今後の展開で、ユーザー目線に立ったSLO運用を目指していく!というお話があり、MSPとしてもお客様の目線に立ったサービス提供を目指していかねば…と改めて気が引き締まる思いがしました。
私たちMSPセクションでもアラート対応においてSLOを設定し、違反したものに対してアプローチしてどうしてSLO違反をしてしまったのか、改善できる部分はないのか、と改善活動を行なっております。
改善活動についての詳しい記事もありますのでよければ是非ご覧ください!
MSPセクション内ではSLOに対する共通意識が形成されつつありますので、この意識をもっと運用/開発チームにも広げていくことがこれからの課題になっていくのかな…と気付くことができ、今後の課題として弊社でも取り組んでいけたらいいなと感じました。