Analytics

作成: 2026.03.22更新: 2026.03.22

Analytics サービスとは

AWS の Analytics サービスは、大量のデータを収集・変換・分析するための基盤を提供する。データレイクの構築からリアルタイムストリーミング処理、BI(ビジネスインテリジェンス)まで、データ活用のあらゆる段階をカバーする。

データパイプラインの全体像

Analytics サービスは単体で使うものではなく、データパイプラインの各段階を担うサービスを組み合わせて使う。典型的な流れは以下の通り。

収集                蓄積       カタログ管理            変換           分析               可視化
Kinesis ─────→            ┌─ Lake Formation ─┐
MSK ─────────→  S3  ←──┤                    ├──→ Glue ETL ──→ Athena ──────→ QuickSight
Data Firehose →            └─ Glue Catalog ──┘    EMR          Redshift
                                                                OpenSearch
  • 収集: Kinesis Data Streams / Amazon MSK / Data Firehose でストリーミングデータを受け取り、S3 に蓄積する
  • カタログ管理: Lake Formation や Glue Data Catalog でスキーマ・アクセス権限を一元管理する
  • 変換: Glue ETL ジョブや EMR クラスタでデータのクレンジング・フォーマット変換を行う
  • 分析: Athena でアドホッククエリ、Redshift で定常的な DWH 分析、OpenSearch でログ・全文検索を実行する
  • 可視化: QuickSight でダッシュボードを作成し、ステークホルダーに共有する

主要サービス

AWS Glue

フルマネージドの ETL(Extract / Transform / Load)サービス。データカタログによるメタデータ管理と、サーバーレスの Spark ベースの変換ジョブを提供する。

Amazon Athena

S3 上のデータに対して標準 SQL で直接クエリを実行できるサーバーレスクエリサービス。事前のデータロードが不要で、スキャンしたデータ量に応じた従量課金のため、アドホックな分析に適している。

Amazon Redshift

ペタバイト規模のデータウェアハウスサービス。列指向ストレージと大規模並列処理(MPP)による高速な分析クエリが特徴。Redshift Spectrum を使えば S3 上のデータに直接クエリすることも可能。

Amazon EMR

Apache Spark、Hive、Presto などのオープンソースフレームワークを実行するマネージドクラスタサービス。Glue よりも細かいチューニングが可能で、大規模かつ複雑なデータ処理に適している。

Amazon Kinesis Data Streams

リアルタイムストリーミングデータの収集・処理サービス。ミリ秒単位のレイテンシでデータを取り込み、リアルタイム分析やイベント駆動アーキテクチャの基盤として機能する。

Amazon Data Firehose

ストリーミングデータを S3、Redshift、OpenSearch Service などの宛先に自動配信するサービス。コードを書かずにデータのバッファリング・変換・配信を行える。元は Kinesis のサブサービスだったが、2024年2月に独立したサービスとなった。

ストリーミングデータに対して SQL や Java/Python でリアルタイム処理を実行するマネージドサービス。旧称 Kinesis Data Analytics。ストリームの集計・フィルタリング・結合などの連続クエリ処理に使う。

AWS Lake Formation

データレイクの構築・管理・セキュリティを一元化するサービス。Glue Data Catalog を基盤として、テーブル・カラム単位のきめ細かいアクセス制御を提供する。複数のチームやサービスでデータレイクを共有する際に不可欠。

Amazon OpenSearch Service

Apache OpenSearch(旧 Elasticsearch)のマネージドサービス。ログ分析、全文検索、可観測性(Observability)ダッシュボードなど、検索・分析ワークロードに特化している。

Amazon MSK

Apache Kafka のフルマネージドサービス。既存の Kafka エコシステム(Connect、Streams、Schema Registry 等)をそのまま利用しつつ、クラスタの構築・運用を AWS に任せられる。

Amazon QuickSight

クラウドネイティブの BI サービス。ダッシュボード作成と機械学習による自動インサイト抽出(QuickSight Q)が可能。Athena、Redshift、S3 などの多様なデータソースに接続できる。

サービス選定の指針

ユースケース推奨サービス
S3 上のデータに対するアドホッククエリAthena
データの変換・クレンジング(ETL)Glue / EMR
大規模データウェアハウスRedshift
リアルタイムストリーム収集Kinesis Data Streams / MSK
ストリームデータの自動配信Data Firehose
ストリームのリアルタイム処理Managed Service for Apache Flink
データレイクの権限管理Lake Formation
ログ分析・全文検索OpenSearch Service
ダッシュボード・可視化QuickSight

このカテゴリの記事