Analytics
カテゴリ概要
Azure のアナリティクスサービスは、データの収集・変換・蓄積・分析・可視化までのデータパイプライン全体をカバーする。AWS では Redshift、Athena、EMR、Glue、Kinesis 等の個別サービスを組み合わせるアプローチが基本だが、Azure では Synapse Analytics のように複数の機能を1つのプラットフォームに統合する方向性が強い。AWS のアナリティクスサービスに慣れたエンジニアにとって、Azure では「1つのサービスが複数の AWS サービスに相当する」ケースが多い点を意識すると理解しやすい。
サービスマッピング一覧
| 機能 | AWS サービス | Azure サービス | 主な違い |
|---|---|---|---|
| DWH + サーバーレスクエリ + Spark | Redshift + Athena + EMR Spark | Synapse Analytics | Azure は 1 つのプラットフォームに統合 |
| ETL パイプライン | AWS Glue | Data Factory | Data Factory はビジュアルパイプライン中心。Glue は Spark コードベース |
| ストリーミング収集 | Kinesis Data Streams | Event Hubs | Event Hubs は Kafka プロトコルにも対応 |
| ストリーム処理 | Managed Apache Flink | Stream Analytics | Stream Analytics は SQL ベースの処理が中心 |
| Hadoop / Spark クラスタ | EMR | HDInsight | OSS ディストリビューションのマネージド実行環境 |
| データカタログ + ガバナンス | Lake Formation + Glue Data Catalog | Microsoft Purview | Purview はデータガバナンス・リネージ追跡まで統合 |
| ログ・テレメトリ分析 | OpenSearch Service | Azure Data Explorer (ADX) | ADX は KQL(Kusto Query Language)で高速な時系列・ログ分析に特化 |
| BI・可視化 | QuickSight | Power BI | Power BI のほうが機能・市場シェアともに大きい |
| Spark ベース統合分析 | EMR + Glue | Azure Databricks | Databricks は Azure とのネイティブ統合が最も深い |
主要サービス詳細
Azure Synapse Analytics(AWS: Redshift + Athena + EMR Spark)
DWH、サーバーレス SQL クエリ、Apache Spark を 1 つのワークスペースに統合した分析プラットフォーム。
AWS エンジニアが知っておくべき違い:
- Redshift に相当する専用 SQL プール(旧 SQL DW)と、Athena に相当するサーバーレス SQL プールの両方を同一ワークスペース内で利用できる
- Apache Spark プールも統合されており、EMR を別途立ち上げる必要がない
- Synapse Studio という統合開発環境が提供され、SQL、Spark、パイプライン管理を 1 つの UI で完結できる
- Synapse Link により Cosmos DB や Dataverse のデータを ETL なしでリアルタイム分析できる(Aurora zero-ETL integration に近い概念だが、対応範囲が広い)
- AWS では Redshift + Athena + EMR + Glue の 4 サービスを組み合わせる構成が、Synapse 1 つで実現できるケースが多い
Azure Data Factory(AWS: AWS Glue)
クラウド規模のデータ統合サービスで、データの移動と変換を行う ETL / ELT パイプラインを構築する。
AWS エンジニアが知っておくべき違い:
- Glue は Spark コード(PySpark / Scala)でのジョブ定義が基本だが、Data Factory はビジュアルパイプライン(GUI ベースのドラッグ&ドロップ)が中心
- Data Factory のデータフローは内部的に Spark で実行されるが、ユーザーはコードを意識せずに変換ロジックを構築できる
- 90 以上の組み込みコネクタを提供しており、オンプレミスのデータソースとの接続も Self-hosted Integration Runtime で対応できる
- Glue Data Catalog に相当するメタデータ管理機能は Data Factory 単体にはなく、Microsoft Purview と連携する
- トリガーベース(スケジュール、イベント、タンブリングウィンドウ)のパイプライン実行をネイティブにサポートしている
Azure Event Hubs(AWS: Kinesis Data Streams)
大規模なストリーミングデータの取り込みを行うフルマネージドサービス。
AWS エンジニアが知っておくべき違い:
- Kinesis Data Streams と同様にパーティション(Kinesis ではシャード)単位でスループットを管理するが、Event Hubs には「自動インフレート」機能がありスループットユニットの自動スケールが可能
- Kafka プロトコルに対応しており、既存の Kafka クライアントコードをほぼ無修正で接続できる。MSK(Managed Streaming for Apache Kafka)の代替としても使える
- Event Hubs Capture を使うと、ストリームデータを自動的に Blob Storage や Data Lake Storage に Avro 形式で保存できる(Data Firehose に近い機能)
- Kinesis と異なり、コンシューマーグループの概念が Kafka と同様のモデルに近い
Azure Stream Analytics(AWS: Managed Apache Flink)
リアルタイムストリーミングデータに対して SQL ベースのクエリ処理を実行するフルマネージドサービス。
AWS エンジニアが知っておくべき違い:
- Managed Apache Flink(旧 Kinesis Data Analytics)は Java / Python / SQL で記述するが、Stream Analytics は SQL ベースの処理に特化しており、学習コストが低い
- Event Hubs、IoT Hub、Blob Storage を入力として、SQL Database、Cosmos DB、Power BI などに直接出力できる
- ウィンドウ関数(タンブリング、ホッピング、スライディング、セッション)が SQL 構文で簡潔に記述できる
- 複雑なステートフル処理や高度なカスタムロジックが必要な場合は、Flink のほうが柔軟性が高い
Azure HDInsight(AWS: EMR)
Apache Hadoop、Spark、Kafka、HBase、Interactive Query(LLAP)などのオープンソースフレームワークをマネージドクラスタとして提供するサービス。
AWS エンジニアが知っておくべき違い:
- EMR と同様に OSS ディストリビューションのマネージド実行環境だが、HDInsight はクラスタ作成時にフレームワークを 1 つ選択する(EMR は 1 クラスタに複数フレームワークを同居可能)
- Azure Databricks の台頭により、Spark ワークロードは Databricks に移行する傾向が強い。HDInsight は Hadoop / HBase / Kafka など Databricks でカバーしにくいワークロード向け
- HDInsight on AKS という新しいデプロイモデルも提供されており、より柔軟なリソース管理が可能
- EMR Serverless に相当する機能は HDInsight には現時点でない
Microsoft Purview(AWS: Lake Formation + Glue Data Catalog)
データガバナンス、データカタログ、データリネージ追跡を統合したサービス。
AWS エンジニアが知っておくべき違い:
- Lake Formation がデータレイクのアクセス制御とカタログ管理に特化しているのに対し、Purview はオンプレミスを含むマルチクラウド環境全体のデータガバナンスを対象としている
- データリネージ(データの流れ・変換の追跡)を自動的に検出・可視化する機能が強力で、Data Factory や Synapse のパイプラインと連携してエンドツーエンドのリネージを表示できる
- 機密データの自動分類・ラベリング機能があり、コンプライアンス対応を支援する
- Glue Data Catalog の代替としてだけでなく、組織全体のデータ資産を一元的に検索・管理するカタログとして機能する
Azure Data Explorer / ADX(AWS: OpenSearch Service)
大規模なログ、テレメトリ、時系列データに対する高速なアドホッククエリを実行するデータ分析サービス。
AWS エンジニアが知っておくべき違い:
- OpenSearch が Elasticsearch ベースの全文検索 + 分析エンジンであるのに対し、ADX は KQL(Kusto Query Language)を用いた時系列・ログ分析に特化している
- Azure Monitor のバックエンドとしても使われており、Application Insights や Log Analytics のデータは内部的に ADX で処理されている
- ペタバイト規模のデータに対するインタラクティブなクエリが数秒で返るパフォーマンスが特徴
- ストリーミングインジェスト(Event Hubs、IoT Hub からのリアルタイム取り込み)をネイティブにサポート
- OpenSearch Dashboards に相当する可視化は ADX Dashboards や Grafana との統合で実現する
Power BI(AWS: QuickSight)
Microsoft が提供するエンタープライズ BI プラットフォーム。ダッシュボード作成、レポート共有、データモデリングを行う。
AWS エンジニアが知っておくべき違い:
- QuickSight がクラウドネイティブの軽量 BI ツールであるのに対し、Power BI はデスクトップアプリ(Power BI Desktop)、Web サービス(Power BI Service)、モバイルアプリの 3 つで構成される本格的な BI プラットフォーム
- DAX(Data Analysis Expressions)というデータモデリング言語を持ち、複雑な計算や集計ロジックを表現できる
- Gartner Magic Quadrant で BI 分野のリーダーに位置付けられており、市場シェアは QuickSight を大きく上回る
- Power BI Embedded でアプリケーションへの BI 埋め込みが可能(QuickSight Embedding に相当)
- Microsoft 365 との統合が深く、Teams や SharePoint 内でレポートを直接表示・操作できる
Azure Databricks(AWS: EMR + Glue)
Databricks 社と Microsoft が共同提供する Apache Spark ベースの統合分析プラットフォーム。
AWS エンジニアが知っておくべき違い:
- Databricks は AWS 上でも利用可能(Databricks on AWS)だが、Azure とのネイティブ統合が最も深い。Entra ID 認証、VNet インジェクション、Data Lake Storage との連携がシームレス
- EMR + Glue の組み合わせで実現する「Spark 実行環境 + ETL + データカタログ」を、Databricks のワークスペース 1 つで提供する
- Unity Catalog によるデータガバナンス、MLflow によるモデル管理、Delta Lake によるトランザクション対応のデータレイクをネイティブに統合
- Databricks SQL(旧 SQL Analytics)でサーバーレスの SQL クエリ実行が可能で、Athena / Redshift Serverless に近いユースケースもカバーする
- ノートブックベースの開発体験が特徴で、データエンジニアリングからデータサイエンスまで同一プラットフォームで対応できる
AWS との主要な違い
統合プラットフォーム指向 vs 個別サービス指向
AWS はデータパイプラインの各段階を個別のサービスで構築する思想が強い(Kinesis で収集、Glue で変換、Athena / Redshift で分析、QuickSight で可視化)。一方、Azure は Synapse Analytics や Databricks のように、複数の機能を 1 つのプラットフォームに統合する傾向がある。これにより初期構築はシンプルになるが、個別サービスの組み合わせによる柔軟性は AWS のほうが高い場合がある。
Kafka エコシステムへのアプローチ
AWS では Kafka を使うなら MSK(Managed Kafka)が基本選択だが、Azure では Event Hubs が Kafka プロトコルに対応しているため、フルマネージドのイベントストリーミングと Kafka 互換性を 1 つのサービスで得られる。専用の Kafka クラスタが不要になるケースが多い。
データガバナンスの統合度
AWS では Lake Formation、Glue Data Catalog、AWS Config、Macie 等を組み合わせてデータガバナンスを実現するが、Azure では Microsoft Purview が組織全体のデータカタログ・リネージ・分類・ポリシーを一元管理する。特にマルチクラウドやオンプレミスのデータ資産も含めて統合管理できる点は Purview の大きな特徴。
BI ツールの位置づけ
QuickSight は AWS エコシステム内で完結する BI ツールだが、Power BI は Azure に限定されない独立した BI プラットフォームとして広く普及している。Azure を使っていなくても Power BI を BI ツールとして採用している企業は多く、Azure 導入時にはシームレスに統合できる利点がある。
サービス選定の指針
| ユースケース | AWS での選択肢 | Azure での選択肢 |
|---|---|---|
| DWH(定常的な大規模分析) | Redshift | Synapse 専用 SQL プール |
| S3 / Blob 上のアドホッククエリ | Athena | Synapse サーバーレス SQL プール |
| Spark ベースの大規模データ処理 | EMR / Glue | Databricks / Synapse Spark プール |
| ビジュアル ETL パイプライン | Glue Studio / Step Functions | Data Factory |
| コードベース ETL(PySpark) | Glue Jobs | Databricks |
| リアルタイムストリーミング収集 | Kinesis Data Streams | Event Hubs |
| Kafka 互換のストリーミング基盤 | MSK | Event Hubs(Kafka 対応) |
| SQL ベースのストリーム処理 | Managed Apache Flink | Stream Analytics |
| ログ・テレメトリ分析 | OpenSearch Service | Azure Data Explorer (ADX) |
| データカタログ・ガバナンス | Lake Formation + Glue Catalog | Microsoft Purview |
| ダッシュボード・BI | QuickSight | Power BI |
| Hadoop / HBase クラスタ | EMR | HDInsight |