Google Analytics(GA)のデータをdigdag(embulk)でBigQueryにシンクしているのですが、 view_id をもう一つ追加してほしいと依頼がありまして、(以下実装に関してはgodgarden氏の以下を参考に) digdagの for_each を使えば設定ファイル新しく作らなくて済むし、管理も楽だよとのことなのですが、1週間くらいドハマリしたのでブログします。

https://qiita.com/godgarden/items/6309f842aeb0eb29a168

  • for_each>: Repeat tasks for values

https://docs.digdag.io/operators/for_each.html


■embulk/digdag

  • embulk/ga_test.yml.liquid

17行目がID番号を入れる部分なので変数化します。 view_id: {{ env.view_id }}
あとはrun.digの中で for_each を作ればOKなのですが、以下のようにすると良き!
34行目の mode: append にしている理由としては次の実行で上書きを防ぐように追記にしてます。(1つのdataset)

  • run.dig

  • rm_table_if_exists.sh

ちなみに上記のシェルスクリプトですが、digdagを事前に実行すると、テーブルが存在しないとretryされてしまうので、成功したデータが重複して追記されてしまいます。そこでテーブルの存在チェックをして、あれば削除からの入れ直しています。むしろdigdagでif文書けばいいと思うのですが、まったくといってもうまくいかなかった….
30行目での view_id: [xxxxxx, xxxxxxxxxx]  は配列でID番号を指定すればOKで、viewにはbqコマンドの -f で強制上書きをしています。


■まとめ

しかし for_each 便利!!!

カテゴリー: BigQuerydigdagembulk

adachin

1989年生まれのFindy/SRE。ホスティングから大規模なアドテクなどのインフラエンジニアとして携わる。現在はサービスの信頼性向上、DevOps、可用性、レイテンシ、パフォーマンス、モニタリング、オブザーバビリティ、緊急対応、AWSでのインフラ構築、Docker開発環境の提供、IaC、新技術の検証、リファクタリング、セキュリティ強化、分析基盤の運用などを担当している。個人事業主では数社サーバー保守とベンチャー企業のSREインフラコンサルティングやMENTA/TechBullで未経験者にインフラのコーチング/コミュニティマネージャーとして立ち上げと運営をしている。また、過去「脆弱性スキャナVuls」のOSS活動もしており、自称エバンジェリスト/技術広報/テクニカルサポート/コントリビュータでもある。

0件のコメント

コメントを残す

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください