AWSで作るはじめてのETL【Glue Jobフロー】

概要

Glue JobがS3に格納されたcsvファイルを読み込み、Redshiftにインサートするように実装を行う。

Glueへ遷移

job-[自分の名前]-[番号]-import-users をクリック

DataCatalogを選択

Amazon Redshift (Target)を選択

s3-[自分の名前]-[番号]-datalakeのusersフォルダに下記ファイルをアップロードする

名前は users.csv にすることに注意

前回アップロードしたファイルを上書きして良い

Glue jobの「Runs」より、ジョブが動いていることを確認

Redshiftのクエリエディタより、レコードを確認する

クエリエディタの接続については Redshiftテーブルを参照

レコードが登録されていれば成功

参考：実行SQL

SELECT * FROM "dev"."public"."users";

そのほかのジョブについても「ジョブ編集」->「レコード登録確認」同様に編集する

なお、それぞれの情報は下記の通り設定する

DataCatalog Node設定
- Name: import-products-csv
- Database: db-[自分の名前]-[番号]
- Table: products
Redshift Node設定
- Name: import-products-to-redshift
- Node parents: import-products-csv (変更なし)
- Redshift connection: connection-[自分の名前]-[番号]-redshift
- Redshift access type: Direct data connection - recommended
- Schema: public
- Table: products
- Handling of data and target table: TRUNCATE target table
データレイクテーブルファイルアップロード
- S3フォルダ: products/
- ファイル: products.csv

DataCatalog Node設定
- Name: import-orders-csv
- Database: db-[自分の名前]-[番号]
- Table: orders
Redshift Node設定
- Name: import-orders-to-redshift
- Node parents: import-orders-csv (変更なし)
- Redshift connection: connection-[自分の名前]-[番号]-redshift
- Redshift access type: Direct data connection - recommended
- Schema: public
- Table: orders
- Handling of data and target table: TRUNCATE target table
データレイクテーブルファイルアップロード
- S3フォルダ: orders/
- ファイル: orders.csv

DataCatalog Node設定
- Name: import-order_items-csv
- Database: db-[自分の名前]-[番号]
- Table: order_items
Redshift Node設定
- Name: import-order_items-to-redshift
- Node parents: import-order_items-csv (変更なし)
- Redshift connection: connection-[自分の名前]-[番号]-redshift
- Redshift access type: Direct data connection - recommended
- Schema: public
- Table: order_items
- Handling of data and target table: TRUNCATE target table
データレイクテーブルファイルアップロード
- S3フォルダ: order_items/
- ファイル: order_items.csv

DataCatalog Node設定
- Name: import-weather-csv
- Database: db-[自分の名前]-[番号]
- Table: weather
Redshift Node設定
- Name: import-weather-to-redshift
- Node parents: import-weather-csv (変更なし)
- Redshift connection: connection-[自分の名前]-[番号]-redshift
- Redshift access type: Direct data connection - recommended
- Schema: public
- Table: weather
- Handling of data and target table: TRUNCATE target table
データレイクテーブルファイルアップロード
- S3フォルダ: weather/
- ファイル: weather.csv