Profile

こうブログ

Notes to Self


AWSで作るはじめてのETL【Glue Jobフロー】

2024年1月1日 Portfolio
Tags: aws etl workshop glue presentations

概要

Glue JobがS3に格納されたcsvファイルを読み込み、Redshiftにインサートするように実装を行う。

Glue遷移

Glueへ遷移

ジョブ編集

job-[自分の名前]-[番号]-import-users をクリック

DataCatalog追加

DataCatalogを選択

Redshift

Amazon Redshift (Target)を選択

DataCatalog Node設定

Redshift Node設定

Save

データレイクテーブルファイルアップロード

s3-[自分の名前]-[番号]-datalakeusersフォルダに下記ファイルをアップロードする

名前は users.csv にすることに注意

前回アップロードしたファイルを上書きして良い

users.csv

Glue Job確認

Glue jobの「Runs」より、ジョブが動いていることを確認

Glue Job 取り込み成功

レコード登録確認

Redshiftのクエリエディタより、レコードを確認する

クエリエディタの接続については Redshiftテーブル を参照

レコードが登録されていれば成功

参考:実行SQL

SELECT * FROM "dev"."public"."users";

他Job編集

そのほかのジョブについても「ジョブ編集」->「レコード登録確認」同様に編集する

なお、それぞれの情報は下記の通り設定する

import-products

import-orders

import-order_items

import-weather

一覧に戻る

構築一覧に戻る