GlueのJDBC並列読取りのlowerBound、upperBoundを動的に求めたい

2020年12月3日

AWS Glue を使用して非ネイティブ JDBC データソースに対して ETL　ジョブを実行す...

https://aws.amazon.com/jp/blogs/news/use-aws-glue-to-run-etl-jobs-against-non-native-jdbc-data-sources/

AWS Glue は、抽出、変換、およびロード (ETL) のための完全管理型サービスで、これで分析のためのデータの準備と読み込みが簡単になります。AWS マネジメントコンソールで数回クリックするだけで ETL ジョブを作成し実行することができます。AWS Glue をデータストアにポイントするだけです。AWS Glue はデータを検出し、関連付けられたメタデータ (テーブル定義やスキーマなど) を AWS Glue データカタログに保存します。 AWS Glue には、IP 接続がある限り、AWS やその他の場所で JDBC ドライバーを用いたデータソースへのネイティ...

Glueの並列読取りのためのプロパティのlowerBound、upperBound。

パーティションカラムの最大値と最小値をジョブ実行のたびに動的に求めて設定できるようにしてみました。

DATABASE_USER = 'USER'
DATABASE_PASSWORD = 'PASSWORD'
TABLE_NAME = 'MY_TABLE'
PARTITION_COLUMN = 'ID'

query = "(SELECT max({0}), min({0}) FROM {1}) sub".format(
    PARTITION_COLUMN, TABLE_NAME
)
properties = {
    "user": DATABASE_USER,
    "password": DATABASE_PASSWORD,
}
(upper_bound, lower_bound) = (spark.read
    .jdbc(url=JDBC_URL, table=query, properties=properties)
    .first())

df = spark \
    .read \
    .format("jdbc") \
    .option("url", JDBC_URL) \
    .option("user", DATABASE_USER) \
    .option("password", DATABASE_PASSWORD) \
    .option("dbtable", TABLE_NAME) \
    .option("numPartitions", 100) \
    .option("partitionColumn", PARTITION_COLUMN ) \
    .option("lowerBound", lower_bound) \
    .option("upperBound", upper_bound) \
    .load()

自動でチューニングできるので便利です。

numPartitionsも、「( upper_bound – lower_bound ) / １つのワーカーで処理したいレコード数＝ numPartitions」の式で求められそうです。

おまけで日付型でやるパターン（Oracle Databaseの場合）

DATABASE_USER = 'USER'
DATABASE_PASSWORD = 'PASSWORD'
TABLE_NAME = 'MY_TABLE'
PARTITION_COLUMN = 'YMD'

query = "(SELECT max({0}), min({0}) FROM {1}) sub".format(
    PARTITION_COLUMN, TABLE_NAME
)
properties = {
    "user": DATABASE_USER,
    "password": DATABASE_PASSWORD,
}
(upper_bound, lower_bound) = (spark.read
    .jdbc(url=JDBC_URL, table=query, properties=properties)
    .first())

lower_bound = lower_bound.strftime('%Y-%m-%d')
upper_bound = upper_bound.strftime('%Y-%m-%d')
num_partition = (upper_bound - lower_bound).days # 日数を求める

df = spark \
    .read \
    .format("jdbc") \
    .option("url", JDBC_URL) \
    .option("user", DATABASE_USER) \
    .option("password", DATABASE_PASSWORD) \
    .option("dbtable", TABLE_NAME) \
    .option("driver", "oracle.jdbc.driver.OracleDriver") \
    .option("numPartitions", num_partition) \
    .option("partitionColumn", PARTITION_COLUMN ) \
    .option("lowerBound", lower_bound) \
    .option("upperBound", upper_bound) \
    .option("oracle.jdbc.mapDateToTimestamp", "false") \
    .option("sessionInitStatement", "ALTER SESSION SET NLS_DATE_FORMAT = 'YYYY-MM-DD'") \
    .load()

アプリケーションエンジニアのためのApache Spark入門

やってみたAWS, AWS Glue, Python, Spark

Posted by danishi