はじめに

TECH WORLDに2度目の出演をした。前回の密着動画で市川氏と「次はインフラやSREまわりの内容も動画で伝えたいね」という話になり、お友達のSREである taddy(@taddy_919) と 山北氏(@sre_yamakita)を誘って、LayerXオフィスで取材を受けてきた。今回は、動画では伝えきれなかった部分を中心に、まとめていこうと思う。

※ちなみに密着動画はもうすぐ7万再生いきそうだったので、驚きである。


SREの業務内容

  • Platform SREについて

自分の場合はPlatform SREという立場でインフラや開発チーム全体の開発体験(Developer Experience)」と「運用効率」を高めることに特化した横断SREの専門領域になる。かつ、その土台となる共通基盤(プラットフォーム)を整備・提供、セキュリティ対応、コスト削減、技術的負債の解消も行っている。アプリケーションは書かないのか?と思われがちだが、自分はIaCであるTerraformや、Goでツールも作るし、SREは当然アプリのコードも読めるようにするべきである。そのため、あらゆる知識と経験が必要となる。

  • Embedded SRE / Enablement SREについて

他にもEmbedded SREという立場で、プロダクト開発チームに直接入り込み、密接に連携して信頼性の向上や運用改善を行う役割がある。また、Enablement SREは組織内の開発チームや他のSREに対して、SRE プラクティスの導入や運用ノウハウを支援・促進する役割もある。しかし、現場ではSRE自体が少ないため、上記すべてやるといった環境も全然あるということ。

その中でもSREとしてまずやらなければならないのは、オブザーバビリティやSLI/SLOの策定となる。

  • オブザーバビリティとは

オブザーバビリティとはアプリケーションやインフラで何か問題が起きたときに、「何が原因かを素早く把握して対応できるようにする仕組み」のことを指す。手法としてはメトリクスやログ、トレースを利用して計測するのが一般的。Goの作者である、Rob Pike氏は「推測するな、計測せよ」という言葉があり、よく障害時に古株のエンジニアが「あれは多分こうだから、こんな感じで対応します」と経験値で動くのではなく、計測したデータに基づいて、原因分析から改善に取り組むことが基本である。

  • SLI/SLOとは

SLI/SLOとしては正常に動作した割合(例:レスポンスタイムや正常リクエスト率)がSLIで目標値がSLO(例:レスポンスタイム2秒未満を99%以上に保つ)となる。そして、SLOに満たなかった分の許容される失敗量がエラーバジェットというのだが、これを使い切ったら開発を止めて信頼性を優先しましょうと判断をするイメージ。SLI/SLOをガチガチに策定しまうとその分運用が大変になるので、まずはシンプルに策定し、文化醸成をすることが大事。

以前、登壇したスライドがあるので、具体的にどんなことをやっているのか気になる方は以下を参考に。

SREのキャリアパス

  • SREのキャリアパスとは

SREのキャリアパスはメンバー/シニアを超えて、技術の最前線でアーキテクチャなどをリードしていくテックリードや、ピープルマネジメントやロードマップ策定、信頼性向上の推進をしていくマネージャーがある。自分は1on1やみんなのパフォーマンスを上げていくことが好きなので、もちろん技術もやりながらマネジメントスキルを上げていきたいと思っている。ちなみにtaddyは技術オタクなので、テックリードまさにだなと感じた。ちなみに山北さんはなんでもできるのでリスペクトが止まらない。

SREのここが面白い

  • SREの面白さとは

SREのどこが面白いと質問されて、面白さの言語化なんてできなかったw 改めて考えてみたが、技術の幅が広くて飽きないのと、プロダクトの価値や開発メンバーと直結しているため、信頼性向上と改善のサイクルが楽しいなと感じる。前提として、チームと文化を変える力がないとうまくいかないことがあるので、コミュニケーション力は大事だと改めて感じた。学び続けられるポジションなので、これからSREになろうか考えてるエンジニアは思い切ってぜひなってほしい。

SREにおけるAIの影響と生存戦略

  • SREは人数が少ないのと、やることが膨大

ここまで書いてきたが、SREはやることが膨大ということと、エンジニアが足りないということが分かったと思う。AIをどう活かしていくのが大事であって、先月ゆるSRE勉強会でAIの知見を聞いてきたが、トイルをなくして、すべて自動化にしていくのがSREの使命である。

  • AIに負けずに強みを探すこと

エンジニアが少なくなる問題はまったく考えていないが、好きな技術領域の強みを見つけ出すことが重要だと思っている。AIは我々長年のエンジニアが経験していないことは補えないので、今まで通り知識と技術を身につけることで、その真偽を判断し、信頼できるエンジニアになるであろうと思う。

ゆるSRE勉強会 #11 〜AI × SREの知見が聞きたい!〜 に参加してきた

まとめ

人生で対談動画を撮ったのは初めてだったが、非常にいい経験となった。そして、普段の仕事ではなかなか言語化しづらい考えや価値観を、対話を通じて引き出してもらえたことで、自分自身の思考の整理にも繋げることができた。

今回はSRE徹底解剖というより、ざっくりとした内容になってしまったが、次回はSREの基本やキャリア相談など、視聴者目線で価値を提供できればと思う。みんなもシニアエンジニアに付いていこう。

余談だが、最近ブログの右上に、Contact/お問い合わせフォームを作ったので、キャリア相談したい方がいればぜひお待ちしている!TechBullもな!

カテゴリー: SRETECH WORLD

adachi.ryo

1989年生まれのFindy/SRE。ホスティングから大規模なアドテクなどのインフラエンジニアとして携わる。現在はサービスの信頼性向上、DevOps、可用性、レイテンシ、パフォーマンス、モニタリング、オブザーバビリティ、緊急対応、AWSでのインフラ構築、Docker開発環境の提供、IaC、新技術の検証、リファクタリング、セキュリティ強化、分析基盤の運用などを担当している。個人事業主では数社サーバー保守とベンチャー企業のインフラコンサルティングを行うほか、TechBull創業と未経験者にSREのコーチング、コミュニティ運営、Members 会員管理システムの開発をリードしている。また、エンジニア向けYouTubeメディア TECH WORLDではSREの対談を行う他、過去には脆弱性スキャナVulsのOSS活動にも貢献。

0件のコメント

コメントを残す

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください