Crawler

作成: 2026.03.24更新: 2026.03.24

1. 概要

AWS Glue Crawler は、データソースを自動的にスキャンし、スキーマ(カラム名・データ型)を推定して Data Catalog にテーブル定義を登録・更新するコンポーネント。

データレイクに新しいデータソースを追加するたびに手動でスキーマ定義を行う手間を省き、メタデータ管理を自動化する。

2. 対応データソース

データソース説明
Amazon S3CSV、JSON、Parquet、Avro、ORC 等のファイル
JDBCRDS、Redshift、外部データベース
DynamoDBDynamoDB テーブル
MongoDB / DocumentDBドキュメントデータベース
Kafka / Kinesisストリーミングデータ

3. 設定のポイント

スケジュール

Crawler の実行頻度は、データソースの更新頻度に合わせて設定する。

  • 日次更新のデータ: cron(0 0 * * ? *) — 毎日深夜に実行
  • リアルタイム更新のデータ: EventBridge でイベント駆動にするか、頻度を上げる
  • ほぼ変更されないデータ: オンデマンド実行で十分

除外パターン

S3 をクロールする際、一時ファイルや中間ファイルを除外する設定が重要。

_temporary/**
_spark_metadata/**
*.crc