AWSで作るはじめてのETL
もくじ
はじめに
ワークショップ後のみんなのすがた
ETLをカンタンに
物理アーキテクチャ図
作られるサービスたち
いざ構築
まとめ
はじめに
本資料は、ETLについてカンタンに学び、実際に構築してみます。
ワークショップ後のみんなのすがた
- ETLについて、なんとなくわかります
- ETLを、なんとなく作れます
- AWSサービスが、少しだけわかります
ETLをカンタンに
ETLってなんぞや
ETLとは、「Extract(抽出)」「Transform(変換)」「Load(格納)」
の略で、データ統合時に発生する各プロセスの頭文字をとったものです。
※ 丸パクリ元 株式会社アシストブログ https://www.ashisuto.co.jp/eai_blog/article/201811_etl.html
ETLをカンタンに
イメージ図
ETLをカンタンに
なんのためにETL??
企業のデータを収集・分析・可視化して経営や業務の改善に役立てる
物理アーキテクチャ図
作られるサービスたち①
S3
- 安価でデータを保存できるストレージサービス
- アクセス頻度によって種類を変えることで料金最適化ができる
- AWSでおそらく一番使われているサービス
作られるサービスたち②
Redshift (serverless)
- データ分析向けデータベースサービス
- 列指向
- Posgress準拠らしいが微妙に違ったりする
作られるサービスたち③
Glue Jobs
- 分析、機械学習 (ML)、アプリケーション開発用コンピューティングサービス
- サーバレスコンピューティングサービス
- glueは「糊(のり)」って意味
作られるサービスたち④
Glue DataCatalog
- データソースのメタデータを管理するサービス
- カラムとか拡張子とか区切り文字とかを定義
- 痒いところに手が届かなかったりする
作られるサービスたち⑤
StepFunctions StateMachine
- いろんなサービスを統合しフローを作成するサービス
- JP1みたいな感じでジョブ作るサービス
- 独特で使いづらいと評判(ぼくは好き)
作られるサービスたち⑥
EventBridge(Scheduler)
- 他のサービスを条件で起動するサービス
- 日時条件やイベント条件など、選択することが可能
- 最近EventBridgeとSchedulerが分かれた
作られるサービスたち⑦
QuickSight
- BIツール
- さまざまなデータストアにアクセスし、データを可視化する
- BIツールなのにUIがイけてないという噂がある(当方調べ)
いざ構築
構築資料
https://blog.m-kotaro.net/portfolio/presentations/aws-etl-workshop/index.html
まとめ
- ETLの大雑把な説明と各サービスを説明しました
- このほかにもさまざまな手法があります
- 本構成は最低限の構成です。実際はプロジェクトごとの方針に従ってください