Pocket

RDSにあるデータをembulkを使ってBigQueryに飛ばすようにテストを繰り返していたところ、digdag run時に以下のエラーが出ました。

そもそもinteger型のカラムにインサートできないそうですね。今回はその対処方法をブログします。


■CAST or Boolean

https://cloud.google.com/bigquery/sql-reference/functions-and-operators?hl=ja#top_of_page

tinyint,boolで定義されたカラムの値がEmbulkではtrueやfalseとして扱われるため、BigQueryのinteger型のカラムにインサートできない仕様になっています。回避策として、signed型にキャストするSQLを書くかBigQueryのカラムをbooleanにする必要があります。
※今回はキャスト型に変換しましょう。


■use CAST 

https://cloud.google.com/bigquery/sql-reference/functions-and-operators?hl=ja#casting

キャスト(CAST)SQLで書いた結果を他の型に変換と覚えておきましょう。今回はhogeカラムとしてSQ:書いてみます。


■embulk

・adachintb.json

・adachintb.yml.liquid

DBにあるテーブルを丸ごと持ってきて、BigQueryに上書きします。これでエラーなくBigQuery側にカラムとデータがぶちこまれました!


■まとめ

となるとMySQLのカラムの型定義とBigQueryの型定義が全く違うので、互換性のある型を指定する必要があるということが分かりますね。他にもBigQueryのタイムゾーンはUTC固定なので、JSTなどの他のタイムゾーンのDBのデータは時刻補正が必要とか。BigQueryはなかなか特殊なのでドキュメント理解しないとツライですな。

column_optionsでもできるそうです!

Pocket


adachin

1989年生まれのSRE。ホスティングから大規模なアドテクなどのインフラエンジニアとして携わる。現在はサービスの信頼性向上、DevOps、可用性、レイテンシ、パフォーマンス、モニタリング、オブザーバビリティ、緊急対応、AWSでのインフラ構築、Docker開発環境の提供、IaC、新技術の検証、リファクタリング、セキュリティ強化などを担当している。個人事業主では数社サーバー保守とベンチャー企業のSREインフラコンサルティングやMENTAで未経験者にインフラのコーチング/コミュニティの運用を実施している。また、「脆弱性スキャナVuls」のOSS活動もしており、自称エバンジェリスト/技術広報/テクニカルサポート/コントリビュータでもある。

0件のコメント

コメントを残す

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください