Analytics
Analytics サービスとは
AWS の Analytics サービスは、大量のデータを収集・変換・分析するための基盤を提供する。データレイクの構築からリアルタイムストリーミング処理、BI(ビジネスインテリジェンス)まで、データ活用のあらゆる段階をカバーする。
データパイプラインの全体像
Analytics サービスは単体で使うものではなく、データパイプラインの各段階を担うサービスを組み合わせて使う。典型的な流れは以下の通り。
収集 蓄積 カタログ管理 変換 分析 可視化
Kinesis ─────→ ┌─ Lake Formation ─┐
MSK ─────────→ S3 ←──┤ ├──→ Glue ETL ──→ Athena ──────→ QuickSight
Data Firehose → └─ Glue Catalog ──┘ EMR Redshift
OpenSearch
- 収集: Kinesis Data Streams / Amazon MSK / Data Firehose でストリーミングデータを受け取り、S3 に蓄積する
- カタログ管理: Lake Formation や Glue Data Catalog でスキーマ・アクセス権限を一元管理する
- 変換: Glue ETL ジョブや EMR クラスタでデータのクレンジング・フォーマット変換を行う
- 分析: Athena でアドホッククエリ、Redshift で定常的な DWH 分析、OpenSearch でログ・全文検索を実行する
- 可視化: QuickSight でダッシュボードを作成し、ステークホルダーに共有する
主要サービス
AWS Glue
フルマネージドの ETL(Extract / Transform / Load)サービス。データカタログによるメタデータ管理と、サーバーレスの Spark ベースの変換ジョブを提供する。
Amazon Athena
S3 上のデータに対して標準 SQL で直接クエリを実行できるサーバーレスクエリサービス。事前のデータロードが不要で、スキャンしたデータ量に応じた従量課金のため、アドホックな分析に適している。
Amazon Redshift
ペタバイト規模のデータウェアハウスサービス。列指向ストレージと大規模並列処理(MPP)による高速な分析クエリが特徴。Redshift Spectrum を使えば S3 上のデータに直接クエリすることも可能。
Amazon EMR
Apache Spark、Hive、Presto などのオープンソースフレームワークを実行するマネージドクラスタサービス。Glue よりも細かいチューニングが可能で、大規模かつ複雑なデータ処理に適している。
Amazon Kinesis Data Streams
リアルタイムストリーミングデータの収集・処理サービス。ミリ秒単位のレイテンシでデータを取り込み、リアルタイム分析やイベント駆動アーキテクチャの基盤として機能する。
Amazon Data Firehose
ストリーミングデータを S3、Redshift、OpenSearch Service などの宛先に自動配信するサービス。コードを書かずにデータのバッファリング・変換・配信を行える。元は Kinesis のサブサービスだったが、2024年2月に独立したサービスとなった。
Amazon Managed Service for Apache Flink
ストリーミングデータに対して SQL や Java/Python でリアルタイム処理を実行するマネージドサービス。旧称 Kinesis Data Analytics。ストリームの集計・フィルタリング・結合などの連続クエリ処理に使う。
AWS Lake Formation
データレイクの構築・管理・セキュリティを一元化するサービス。Glue Data Catalog を基盤として、テーブル・カラム単位のきめ細かいアクセス制御を提供する。複数のチームやサービスでデータレイクを共有する際に不可欠。
Amazon OpenSearch Service
Apache OpenSearch(旧 Elasticsearch)のマネージドサービス。ログ分析、全文検索、可観測性(Observability)ダッシュボードなど、検索・分析ワークロードに特化している。
Amazon MSK
Apache Kafka のフルマネージドサービス。既存の Kafka エコシステム(Connect、Streams、Schema Registry 等)をそのまま利用しつつ、クラスタの構築・運用を AWS に任せられる。
Amazon QuickSight
クラウドネイティブの BI サービス。ダッシュボード作成と機械学習による自動インサイト抽出(QuickSight Q)が可能。Athena、Redshift、S3 などの多様なデータソースに接続できる。
サービス選定の指針
| ユースケース | 推奨サービス |
|---|---|
| S3 上のデータに対するアドホッククエリ | Athena |
| データの変換・クレンジング(ETL) | Glue / EMR |
| 大規模データウェアハウス | Redshift |
| リアルタイムストリーム収集 | Kinesis Data Streams / MSK |
| ストリームデータの自動配信 | Data Firehose |
| ストリームのリアルタイム処理 | Managed Service for Apache Flink |
| データレイクの権限管理 | Lake Formation |
| ログ分析・全文検索 | OpenSearch Service |
| ダッシュボード・可視化 | QuickSight |