Pocket

RDSにあるデータをembulkを使ってBigQueryに飛ばすようにテストを繰り返していたところ、digdag run時に以下のエラーが出ました。

そもそもinteger型のカラムにインサートできないそうですね。今回はその対処方法をブログします。


■CAST or Boolean

https://cloud.google.com/bigquery/sql-reference/functions-and-operators?hl=ja#top_of_page

tinyint,boolで定義されたカラムの値がEmbulkではtrueやfalseとして扱われるため、BigQueryのinteger型のカラムにインサートできない仕様になっています。回避策として、signed型にキャストするSQLを書くかBigQueryのカラムをbooleanにする必要があります。
※今回はキャスト型に変換しましょう。


■use CAST 

https://cloud.google.com/bigquery/sql-reference/functions-and-operators?hl=ja#casting

キャスト(CAST)SQLで書いた結果を他の型に変換と覚えておきましょう。今回はhogeカラムとしてSQ:書いてみます。


■embulk

・adachintb.json

・adachintb.yml.liquid

DBにあるテーブルを丸ごと持ってきて、BigQueryに上書きします。これでエラーなくBigQuery側にカラムとデータがぶちこまれました!


■まとめ

となるとMySQLのカラムの型定義とBigQueryの型定義が全く違うので、互換性のある型を指定する必要があるということが分かりますね。他にもBigQueryのタイムゾーンはUTC固定なので、JSTなどの他のタイムゾーンのDBのデータは時刻補正が必要とか。BigQueryはなかなか特殊なのでドキュメント理解しないとツライですな。

column_optionsでもできるそうです!

Pocket


adachin

1989年生まれのSRE。 ホスティングから大規模なアドテクなどのインフラエンジニアとして携わる。好きなツールはAnsible,Terraform,CircleCIで、ECS/Fargateでのインフラ構築を得意とする。個人開発では「夫婦、パートナー向け家事管理サービス/famii」をCakePHP/Laravelで開発中。副業では数社サーバー保守とベンチャー企業のインフラコンサルティングやMENTAで未経験者にインフラのコーチングを実施している。また、「脆弱性スキャナVuls」のOSS活動もしており、自称エバンジェリスト/技術広報/テクニカルサポート/コントリビュータでもある。現在はサービスの信頼性向上、DevOps、可用性、レイテンシ、パフォーマンス、モニタリング、緊急対応、インフラコード化、リファクタリング、セキュリティ強化、新技術の検証、Docker開発環境の提供、AWSでのインフラ構築、GCPでのGKE/Kubernetes保守などを担当している。

0件のコメント

コメントを残す

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください