LINEで送る
Pocket

月次で、あるDBをBigQueryに転送したい場合、
実行した年と月をカラムに出力しないといつ実行されたのかわからん!!!!!
そこで以下のようにSQLを叩いてもいいのですが…

BigQuery運営していると無駄にSQLが発行されて料金が高くなってしまう恐れがあるので、
embulkで完結できないものかとググっていたら良いプラグインを発見しました!


■embulk-filter-column

https://github.com/sonots/embulk-filter-column

add_columsは下記。

digdagを使っているので、digdagファイルで日付を変数化すればいい感じになる!


■Install embulk-filter-column

基本プラグインはGemfileで管理しやしょう!


■hoge.json

今回はhistory_dateという名前にして先頭に追加しました。
(結構名前生み出すのが大変)


■hoge.yml.liquid

BigQueryの仕様上データ件数1件でもフルスキャンされて死亡してしまうため、
38行目
のtable指定は日付を分割テーブルにしています。
BigQuery分割テーブルについては以下を参考に!
https://cloud.google.com/bigquery/docs/partitioned-tables?hl=ja


■hoge.dig

また日付の変数は上記のように月次の1日に実行するよう表記しています。


■digdag run hoge.dig

!!!

Viewテーブル作って確認してみると、
ちゃんと値取れてるので問題なさそう!!


■まとめ

しかしembulkで書いてテストしてエラー起きての繰り返しで
1日で終わってしまう。。。最近スピード早くなった!!!

LINEで送る
Pocket


adachin

1989年生まれのLancers SRE。 ホスティングから大規模なアドテクなどのインフラエンジニアとして携わり、AnsibleやTerraformでのインフラコード化を推進。副業では数社サーバー保守、未経験によるエンジニアのメンターなども実施している。また、「脆弱性スキャナVuls」のOSS活動もしており、自称エバンジェリスト/技術広報/テクニカルサポート/コントリビュータでもある。現在はサービスの信頼性向上、可用性、レイテンシ、パフォーマンス、モニタリング、緊急対応、インフラコード化、リファクタリング、セキュリティ強化、新技術の検証、Docker開発環境の提供、AWSでのインフラ構築、グループ会社インフラ対応、ECS/Fargateへの移行、Wordpressによるコーポレートサイトの修正、メンター、分析基盤の運用を担当している。

0件のコメント

コメントを残す

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください