Skip to content

AWSで作るはじめてのETL

もくじ

  1. はじめに

  2. ワークショップ後のみんなのすがた

  3. ETLをカンタンに

  4. 物理アーキテクチャ図

  5. 作られるサービスたち

  6. いざ構築

  7. まとめ

はじめに

本資料は、ETLについてカンタンに学び、実際に構築してみます。

ワークショップ後のみんなのすがた

  • ETLについて、なんとなくわかります
  • ETLを、なんとなく作れます
  • AWSサービスが、少しだけわかります

ETLをカンタンに

ETLってなんぞや

ETLとは、「Extract(抽出)」「Transform(変換)」「Load(格納)」

の略で、データ統合時に発生する各プロセスの頭文字をとったものです。

※ 丸パクリ元 株式会社アシストブログ https://www.ashisuto.co.jp/eai_blog/article/201811_etl.html

ETLをカンタンに

イメージ図

w:1100px

ETLをカンタンに

なんのためにETL??

企業のデータを収集・分析・可視化して経営や業務の改善に役立てる

w:500px

物理アーキテクチャ図

w:700px

作られるサービスたち①

S3

w:150px

  • 安価でデータを保存できるストレージサービス
  • アクセス頻度によって種類を変えることで料金最適化ができる
  • AWSでおそらく一番使われているサービス

作られるサービスたち②

Redshift (serverless)

w:150px

  • データ分析向けデータベースサービス
  • 列指向
  • Posgress準拠らしいが微妙に違ったりする

作られるサービスたち③

Glue Jobs

w:150px

  • 分析、機械学習 (ML)、アプリケーション開発用コンピューティングサービス
  • サーバレスコンピューティングサービス
  • glueは「糊(のり)」って意味

作られるサービスたち④

Glue DataCatalog

w:150px

  • データソースのメタデータを管理するサービス
  • カラムとか拡張子とか区切り文字とかを定義
  • 痒いところに手が届かなかったりする

作られるサービスたち⑤

StepFunctions StateMachine

w:150px

  • いろんなサービスを統合しフローを作成するサービス
  • JP1みたいな感じでジョブ作るサービス
  • 独特で使いづらいと評判(ぼくは好き)

作られるサービスたち⑥

EventBridge(Scheduler)

w:150px

  • 他のサービスを条件で起動するサービス
  • 日時条件やイベント条件など、選択することが可能
  • 最近EventBridgeとSchedulerが分かれた

作られるサービスたち⑦

QuickSight

w:150px

  • BIツール
  • さまざまなデータストアにアクセスし、データを可視化する
  • BIツールなのにUIがイけてないという噂がある(当方調べ)

いざ構築

構築資料

https://blog.m-kotaro.net/portfolio/presentations/aws-etl-workshop/index.html

まとめ

  • ETLの大雑把な説明と各サービスを説明しました
  • このほかにもさまざまな手法があります
  • 本構成は最低限の構成です。実際はプロジェクトごとの方針に従ってください