二ヶ月ぶりのブログとなります。今年も「ADACHIN SERVER LABO」をどうぞよろしくお願いします!今回はFindyで「TechBrew in 東京 〜SRE大集合!信頼性を高める取り組み」参加してきました。前日では五反田の「Far Yeast Brewing」でつよつよSREの方たちとビールを飲みまくりました。特に@isaoshimizuさんとの昔話は激アツで盛り上がりましたが、自分は普段飲まない甘いビールにチャレンジしたところ途中頭痛になりました。(相変わらず甘いのしか飲めへんで!)

さて、久しぶりのオフラインでの勉強会ということもありまして、現場では見慣れた方がたくさんいらっしゃいました。早速イベントレポートしてきましょう!


イベント概要

https://findy.connpass.com/event/308162/


オープニング

  • まっきー @ayamakkie
    • 乾杯!
    • マサカリ禁止だぞ!
  • ココナラさんから
  • 川崎さん
    • ココナラ
    • スキルマーケット
    • 2023年上場
    • エンジニア70名
    • リポジトリ数170!?
    • ココナラさんエンジニア募集中!


「SREに活かすセルフ・アウェアネス」井上 翔太(@syossan27)

  • 井上さん @syossan27
    • ゆるSRE勉強会やってるよ
  • 今日お話すること
    • ソフトスキルについて
    • 信頼性は会話です
    • 会話と繋がってる
  • ソフトスキルの話はあんまり見ない
    • SREにとって大事じゃね?
    • 海外だと言及は少なくない
    • Redhatの対談
    • テクノロジーで解決するのは難しい
    • 人間の話になっていく
  • SREチームはいろんなチームとコミュニケーションする
    • SRE以外のポジションに異動しても覚えても損はない
  • セルフアウェアネス
    • SRE本
    • 内省
    • 実践の話
    • 自分の心の動きを振り返る
  • 内省がふりかえり
    • 内面的自己認識
  • セルフアウェアネス
    • 外面的自己認識
  • 価値観や願望などの要素を使って振り返る
    • 感情が揺れ動くこと
    • よくやったなど
    • なぜそう感じたのか
    • 強みや弱みなどで振り返っていく
  • whyではなくwhat
    • マイナス思考のループになる
    • なにかできなかったのか
    • なにがきっかけでそう感じたのか
    • 短期間では身につかない
  • どこで活用するのか
    • 全部
    • どんな状況でも活用がある
  • ケース1 ポストモーテム
    • この人と関わるのいやだなー
    • なんでなのかを内省化していく
    • 少しでもポジティブに
  • 最後に
    • 壁などは絶対にあるので一つの手段として使ってみるのがよさそう


「SIEMってサイトの信頼性向上に寄与するの?」川崎 雄太(@yuta_k0911)

  • 川崎さん @yuta_k0911
    • ココナラ システムプラットホーム部
    • わりと偉い立場で部長!!
  • 信頼性向上 SIEM
  • セキュリティログ分析
    • セキュリティログ分析取り組んでいるか
    • システムのコンディション把握と打ち手の創出をすること
    • 分析の仕組みが不可欠となる
  • ログの量が多いので分析はやる必要あり
    • ログの分析から予兆
    • 信頼性向上なのでは
  • 実際やってみての効果
    • 手段
    • 人に読みやすくない
    • ログの量が膨大
    • 120GB以上ある
    • 相関関係がわかりにくい
    • S3 Athena
  • 検知と視認性を優先
    • 環境もCloudformationでテンプレートがある
    • 日時で傾向把握と分析、過去との比較からパターン化
    • 対策も自動化されている
    • 意外と攻撃やお行儀の悪いアクセスが来ている
    • スクレイピング
    • 気づけたのも効果的
    • 403で返せば止められる
  • 今後
    • 継続したリファクタリングを行う
    • 導入後の運用が大事
    • DevSecopsにつながる
    • セキュリティログの分析により、サイト信頼性向上の糸口が見つかる


「チームと成長するSRE」Toshiya Kato(@maruloop)

  • 加藤さん @maruloop
    • LINE
    • embedded SRE
  • SWE開発者の成長
  • SREの成長
    • 開発者に対してSRE/DevTool/Platformを伝える
  • k8sのケース
    • 知識はあればいい、なければいい
    • ロールが別れてる
    • 何を知らないでいるか
    • 今に関係すること
    • どうやって今の状態を伝えていくのか
    • 技術の継承は導入の前から始まっている
  • テクニカルデシジョン
    • Tool使っていこう
  • 導入作業をSREがガンガンやっていく
    • プルリクエスト出してもレビューができない
    • 他のチームでembdeddしているSREが勧めていく
    • ハンズオン形式で紹介していく
  • 工夫していること
    • 毎週20分実施している
    • 問題があったとしても次の一週間でフォローができる
    • できることを増やしていく
    • ひたすらハンズオンで繰り返していく
    • ペアプロ的な
    • トラブルシューティングもすぐできる
    • ストレスを感じていない
    • 導入したら真似していく
    • リソース効率の判断がしやすい
    • 多重ワークを許容する
  • ファーストペンギンでSREが実施していく
    • 学習のために投資している


トイル撲滅から始める改善手法とその結果」 Yuji Suzuki(@yjszk666)

  • リブセンス 鈴木さん @yjszk666
    • 占い師!?
  • 誰もやりたがらない仕事
  • 信頼性向上
  • SLI/SLOはできていない
  • トイル
    • 作業そのものが長期的価値を見出していない
    • 理想論じゃない?
    • あえてやってみる
  • 脆弱性対応の自動化
    • 週次で手動アサインしていた
    • 日時でissueが切られる
    • 調べるのが大変
    • バリューを見出すことができない
    • 事業価値が下がる
    • CODEOWNERSで詳細を出した
    • inspectorのAPIから推奨APIを取れる
    • コメントでSSM Run Commandを実行
    • MTG短くなる
    • 脆弱性放置しないことで信頼性担保
  • 放置された理想の認証システム
    • 作者が退職してブラックスボックス
    • スペックが高い
    • なぜ触れなかったのか?
    • CI/CD未整備時代
    • 多段SSHでめんどくさい
  • トイル解消がもたらす組織への影響
    • 誰もがやらないことをやると空気が変わる
    • 誰もやらないことやると空気が変わる
    • 勘所が鍛えられる
  • 特別賞もらった
    • 面白くない仕事を楽しくするか
    • 今後は監視をやっていく!


「ジョインしたてのSREが信頼性向上に取り組む(監視設計編)」

  • 上倉さん
    • ココナラ SRE
  • 監視設計
    • プロジェクト
    • ミッション
    • リアクティブ
    • 今回はミッションの方
  • 計画実行運用整備
  • 監視設計のミッション
    • 運用ラインに乗せる
    • なにもわからない状態だった
    • とにかくインプット
    • ベストプラクティスは理解した
    • ココナラで活かせるわけではない
  • システム運用アンチパターン
    • このダッシュボードの目的はなにか
    • ビジネスフレームワークは5w1h
    • 課題を分析していこう
    • ビジネスフレームワークをエンジニアリングに乗せる
    • ゴールの設定に課題を抽出していく
  • AsIS Tobe分析
    • ロジカルツリー
    • ロードマップ
    • ビジネスフレームワークを使う
  • メトリクス監視の設計を行う
    • why who when
    • 要件からwhere what how
    • Datadogを使う
  • チームレビューから具体的に見ていく
    • アラートの即時性
    • アラートの管理
    • 誰でもSREであれば回収できる状況を作る
  • ポイント
    • CloudWatch Metric Streamsで即時性を担保する
    • 15分から3分に短縮
    • datadog_monitor_json
    • アラートの関数の利用
    • 複数リソースのアラートを簡単にできる


「ガチめなインフラエンジニアから見たSRE」Kaoru Oda(@bariero)

  • 小田さん Voicy @bariero
    • 一人でオンプレの構築をやっていた
  • SREとは
    • インフラ構築運用
    • 高い技術力
  • 差分ってなんだろう
    • SREぽい活動はしているが
    • やっていることは同じ
  • 立ち位置の違い
    • サイトの信頼性を担保していく


「入社1ヶ月目でSREチームの方針とあり方を見直した件」大澤秀一(@ohsawa0515)

  • 大澤さん!Vuls! @ohsawa0515
    • クリエイティブサーベイ
    • 元々はsansan
    • データ分析基盤
  • 現状のチームの課題
  • チームトポロジー
  • 組織について
    • プラットフォームチーム
      • CI/CD
    • SREチーム
    • データエンジニアチーム
    • 開発で20名くらい
    • 全体でスクラム回している
  • CTOの意見
    • SREの状況が把握しづらい
    • 依頼されたときに誰に依頼すればいいのわからない状態
    • 機能提案というのをCTOは求めている
  • 1ヶ月で感じたこと
    • DatadogでSLI/SLOを使っている
    • 開発チームにうまくアプローチしていなかった
  • 今後について
    • まだまだ模索中
    • SREの3名がembedded している
  • データ分析やりながらSRE見てる
  • プランニングもしている
  • 各チームもエラーバジェットなどもやっている
  • 脆弱性対応もSREがやっていく
    • 負荷が高くなる
    • MTGも倍になる
    • やっていきながら改善していく
  • アラート対応もSREが見ていく
    • 開発メンバーも見ていくようにしたい
    • クライアントが関わることは今月から着手していく
  • 目標はどういうチームでいきたいのか
    • チームとしてバラバラ
    • ステートメントをやっていく


「Datadog実行基盤をEC2からECSへ移行してみた」 森祐太朗(@Y0u281

  • 森さん 元キュービック @Y0u281
    • 絶賛ニート中で有給休暇中なのかい!
  • Mackerel
    • 外形監視
    • ログ監視は別
  • ホストメトリクス
    • Datadog
    • 監視基盤を強化したい
  • 移行してみて
    • synthetic監視は使わないのか!?
    • コスト的に高い
  • 100サイト
    • Mackerelであれば10000円
    • datadogだと300000円
  • ECSに移行
    • Github Actions化
    • テンプレートがある
  • 外形監視のコード化できた
  • ホスト料金を節約できた


懇親会とまとめ

信頼性を向上させるためには、チームで様々な工夫をしていることが印象的でした。特に、ソフトスキルの重要性については私も現職でAzureとAKSを用いた運用と各メンバーのフォローを行っている中で実感しており、開発の組織力を高めるためにも、チームを巻き込む力や人間力の強化に注力したいと考えております。文化を変えるのはなかなか難しいですが、やっていき!

久しぶりにオフラインでの勉強会は非常に楽しかったです!Findy DevRelチームの皆さんはマブダチですが、特に感激したのは個人で活動している輪読会で「達人が教えるWebパフォーマンスチューニング 〜ISUCONから学ぶ高速化の実践」の著者である「馬場さん」と一緒に飲みに行けたことは激アツでした!うおおおおが止まらない。

Findyの皆さん、本当にありがとうございました!次回は私もLTできるように準備しようと思います!

ノベルティはTシャツか!?


adachin

1989年生まれのFindy/SRE。ホスティングから大規模なアドテクなどのインフラエンジニアとして携わる。現在はサービスの信頼性向上、DevOps、可用性、レイテンシ、パフォーマンス、モニタリング、オブザーバビリティ、緊急対応、AWSでのインフラ構築、Docker開発環境の提供、IaC、新技術の検証、リファクタリング、セキュリティ強化、分析基盤の運用などを担当している。個人事業主では数社サーバー保守とベンチャー企業のSREインフラコンサルティングやMENTA/TechBullで未経験者にインフラのコーチング/コミュニティマネージャーとして立ち上げと運営をしている。また、過去「脆弱性スキャナVuls」のOSS活動もしており、自称エバンジェリスト/技術広報/テクニカルサポート/コントリビュータでもある。

0件のコメント

コメントを残す

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください