3. Glue 의 컨셉

AWS Glue는 완전 관리형 ETL(추출, 변환, 로드) 서비스로, 데이터 소스와 대상을 쉽게 연결하여 데이터를 이동하고 처리할 수 있도록 설계되었으며, ETL 프로세스를 단순화하여 데이터 준비 및 변환 작업을 효율적으로 수행할 수 있도록 지원합니다.

데이터 카탈로그(Data Catalog)
- 메타데이터 저장소로 테이블 정의, 작업 정의, ETL 워크플로우를 관리하는 제어 정보 포함.
크롤러(Crawlers)
- 데이터 소스에 연결하여 스키마를 분석하고, 데이터 카탈로그에 메타데이터 테이블 정의를 생성.
ETL 작업(ETL Jobs)
- Apache Spark 스크립트를 사용하여 데이터를 변환하고 대상을 채우는 비즈니스 로직.
트리거(Triggers)
- 스케줄이나 이벤트에 따라 작업 실행을 시작.

자동화된 스키마 관리
크롤러와 데이터 카탈로그를 활용해 데이터 소스의 메타데이터를 자동으로 수집 및 관리.
서버리스 환경
- 별도의 인프라 관리 필요 없음.
- 실행한 만큼만 비용 지불(DPU 기준).
다양한 데이터 소스와 통합
- Amazon S3, RDS, DynamoDB, Redshift 등 AWS 데이터 서비스뿐 아니라 JDBC 연결 및 타사 데이터베이스 지원.
데이터 변환 지원
- 다이내믹 프레임과 Apache Spark 환경을 활용해 반구조적 데이터 처리 및 변환 가능.
사용 편의성
- 시각적 작업 편집기 및 노트북 인터페이스로 직관적인 데이터 파이프라인 작성.
- 트리거로 일정 및 이벤트 기반 작업 자동화.

티스토리툴바