Crawler

作成: 2026.03.24更新: 2026.03.24

1. 概要

AWS Glue Crawler は、データソースを自動的にスキャンし、スキーマ（カラム名・データ型）を推定して Data Catalog にテーブル定義を登録・更新するコンポーネント。

データレイクに新しいデータソースを追加するたびに手動でスキーマ定義を行う手間を省き、メタデータ管理を自動化する。

データソース	説明
Amazon S3	CSV、JSON、Parquet、Avro、ORC 等のファイル
JDBC	RDS、Redshift、外部データベース
DynamoDB	DynamoDB テーブル
MongoDB / DocumentDB	ドキュメントデータベース
Kafka / Kinesis	ストリーミングデータ

Crawler の実行頻度は、データソースの更新頻度に合わせて設定する。

S3 をクロールする際、一時ファイルや中間ファイルを除外する設定が重要。

_temporary/**
_spark_metadata/**
*.crc