LINEで送る
Pocket

最近Digdagembulkを勉強してまして、
以前、イマイチDiddagについてまったく理解出来ませんでした。。😅(概念など)

が!!

この2つは分析基盤(redashやらログ系)でよく使われており、しかも相性がめちゃくちゃいいとのこと
ということで分かりやすくまとめてみました。


■Digdagって何よ?

TreasureData社がOSSで公開しているツールで、依存関係のある複数のタスクを実行するワークフローエンジンです。
簡単に言うと、

「ジョブ管理→cron(バッチ)」😆

と言えばイメージが湧くと思います。また!

ワークフローエンジンと言えばJenkinsジジイ、Airflow、Luigiなどがありますが、
Digdagはそれらと比べて3つのメリットがあります。

・YAMLでシンプル,学習コストが低い
・High Availability(HA)構成が容易
・分散環境での動作が容易

少しDigdagの設定ファイルを見てみましょう。

・run.dig

https://docs.digdag.io/scheduling_workflow.html

上記の例では「スケジューラー機能」と呼ばれるもので、アクセスログとエラーログ
毎日3時にDigdagちゃんがタスクを実行してくれます。
ちなみにDigdagのコマンドリファレンスは以下で実行ファイルも適当に作ってみました。

https://docs.digdag.io/command_reference.html

・adachin-server_access_log.dig

で、embulkを組み合わせると!?


■embulkって何よ?

これまたTreasureData社がOSSで公開しているツールで、(古橋さん開発)
ファイルやデータベースからデータ抽出を行い、別のストレージやデータベースにデータ転送するためのツールです。もちろんYAML!!設定ファイル見てみましょう。

・config.yml

・adachin-server-bq.json

ちょいとこの設定は適当なのですがw
S3からアクセスログを抽出してBigQueryに飛ばす(同期)ようなことをしています。
bigqueryのテーブルスキーマはjsonで作成し、embulk parserで各カラムにつけた型と合わせるだけです。
この実行をDigdagでワークフローしてもらいます。構成図は!?


■redash x fluentd x Digdag x embulk

参考
https://qiita.com/shiozaki/items/f79eecf8e1878aa64a40

Digdagを使うと、embulkの複数起動を効率的に管理して、
データ抽出やら転送がイージーになるわけですな。
基本サーバのアクセスログはfluentdを使ってs3に飛ばしましょう。
あとはredashがBigQueryの中見ればアクセスログなどの可視化ができる!!!

ちなみにDigdagの管理画面ではjobがエラー吐いているのかなども可視化されているので
分かりやすい!
参考
https://qiita.com/skryoooo/items/d5c2e092355bd02228c8

😁


■まとめ

分析基盤ならDigdagとembulkで決まりですな。。。(神)
Vulsの脆弱性数とかもこれでできそう。
次回はDigdagのコマンドなど徹底して紹介したいと思います!
redashはv4に!!!!!!!!

[Redash][upgrade]ついに待望のv4.0.0にアップグレードしてみましたぜ!!

参考
https://qiita.com/nagais/items/47f1cbb117584dbc18c2

LINEで送る
Pocket

カテゴリー: digdagembulkRedash

あだちん

1989年生まれ。 ランサーズ/SRE。 ホスティングから大規模なアドテクなどのインフラエンジニアとして携わり、他社インフラレスポンス改善、ランサーズでの副業、ansibleでのインフラコード化を推進し、未経験によるエンジニアのMENTAなども実施している。また、「脆弱性スキャナVuls」のOSS活動もしており、自称エバンジェリスト/広報/VulsRepo init file,chatwork通知のコントリビュータでもある。現在はDocker開発環境の提供,AWSで新サービスのインフラ構築,PHPバージョンアップ,分析基盤を担当しておりDigdag,embulk,BigQueryを使いこなし中。

コメントを残す

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください