AWS Glueを使うときに気をつけること

2020年11月12日

使ってると色々ハマることがあったのでメモ。

1. ETLジョブ
2. ネットワーク

ETLジョブ

DataFrameとDynamicFrame

GlueのジョブをコーディングするのにPython ShellやPython Sparkが選べますが、Python Shellの方は汎用処理に使って、Python Sparkは分散データ処理に使います。

で、Python Sparkの構文を調べ始めるとDataFrameとDynamicFrameというのが出てきてまあまあ混乱します。
DataFrameはSparkで用意されている分散処理用のデータセットでDynamicFrameはAWSの用意しているラッパーです。

マネジメントコンソールで自動生成されるジョブはDynamicFrameで作られていますが、ちょっと凝ったことをしようと思ったら、DataFrameに変換してコードを書いた方が色々と小回りが利いて便利です。

情報もSparkで使われてる分DataFrameの方がよく見つかります。

ワーカー数初期設定

初期値が10と妙に大きいので必要なければ最小の2にしておきましょう。

Qiita

Glueのデフォルト値が不親切な件 - Qiita

https://qiita.com/cotaro/items/248d59e64657936d88d8

最近AWSのGlueを使ったETLを作って実行してみました。単純なCSVをRDSにインサートするだけの処理だったので非常に軽いジョブです。何度かジョブの成功失敗を繰り返し、翌日請求ページで確認したら1000円くらいの課金になっていまし...

継続的なログ記録の有効化

ジョブの進捗状況が確認できるようになるので、是非有効化しましょう。

クラスメソッド発「やってみた」系技術メディア | Developers.IO

AWS Glue Spark ETL ジョブでリアルタイムの進行状況を追跡する『Continuous Loggi...

https://dev.classmethod.jp/articles/20190615-aws-glue-continuous-logging/

AWS Glueは、Spark ETLジョブでApache Sparkのステージを実行するリアルタイムの進行状況を追跡する『Continuous Logging』をサポートしました。リアルタイムにDriver/Execu …

プログレスバーの表現が物凄くわかりにくいですが、

docs.aws.amazon.com

Enabling Continuous Logging for AWS Glue Jobs - AWS Glue

https://docs.aws.amazon.com/ja_jp/glue/latest/dg/monitor-continuous-logging-enable.html#monitor-continuous-logging-progress

AWS Glue ジョブに関するリアルタイム情報の連続ログ記録を有効にします。

Stage Number (Stage Name): > (numCompletedTasks + numActiveTasks) / totalNumOfTasksInThisStage]
Stage Number (Stage Name): > (処理済みタスク + 処理中タスク) / タスク総数]

だと思っておけばいいっぽい。

パフォーマンスチューニング

RDSから大きなテーブルのデータを抽出するときは、フルスキャンにならないよう並列取り込みを利用するようにしましょう。
テーブルに数値型、または日付型のキーまたはインデックス項目があることが前提です。

Qiita

AWS Glue で億超えレコードなテーブルからETLする - Qiita

https://qiita.com/h-imaoka/items/57e100f25ecb43835166

この記事はfreee データに関わる人たち Advent Calendar 2019の11日目です。シンプルにAWS Glueで RDB(MySQLとか)から巨大なテーブルデータを取り出すときの話です。tl;drGlu...

こういうコードだと

df = spark \
    .read \
    .format("jdbc") \
    .option("url", JDBC_URL) \
    .option("user", "USER") \
    .option("password", "PASSWORD") \
    .option("dbtable", "MY_TABLE") \
    .option("driver", "oracle.jdbc.driver.OracleDriver") \
    .option("numPartitions", 10) \
    .option("partitionColumn", "id") \
    .option("lowerBound", 0) \
    .option("upperBound", 10000) \
    .load()

こういうクエリが並列で走ります。

SELECT * FROM MY_TABLE WHERE id < 1000;
SELECT * FROM MY_TABLE WHERE 1000 <= id AND id < 2000;
～～～
SELECT * FROM MY_TABLE WHERE 8000 <= id AND id < 9000;
SELECT * FROM MY_TABLE WHERE 9000 <= id;

ワーカーが増えればこの分かれたクエリを同時に実行できる数が増えます。