반응형
1. AWS Glue 요약
AWS Glue는 완전 관리형 ETL(추출, 변환, 로드) 서비스로, 데이터 소스와 대상을 쉽게 연결하여 데이터를 이동하고 처리할 수 있도록 설계되었으며, ETL 프로세스를 단순화하여 데이터 준비 및 변환 작업을 효율적으로 수행할 수 있도록 지원합니다.
2. 핵심 구성 요소
- 데이터 카탈로그(Data Catalog)
- 메타데이터 저장소로 테이블 정의, 작업 정의, ETL 워크플로우를 관리하는 제어 정보 포함.
- 크롤러(Crawlers)
- 데이터 소스에 연결하여 스키마를 분석하고, 데이터 카탈로그에 메타데이터 테이블 정의를 생성.
- ETL 작업(ETL Jobs)
- Apache Spark 스크립트를 사용하여 데이터를 변환하고 대상을 채우는 비즈니스 로직.
- 트리거(Triggers)
- 스케줄이나 이벤트에 따라 작업 실행을 시작.
3. 일반적인 워크플로우
- 데이터 소스 및 대상 정의: 데이터 카탈로그에서 데이터 스키마와 메타데이터 정의.
- 크롤러 사용: 데이터 소스에서 메타데이터를 자동으로 가져와 테이블 정의 생성.
- ETL 작업 정의: 스크립트를 작성하여 데이터 추출, 변환, 로드 작업 설정.
- 작업 실행: 필요 시 수동 실행 또는 트리거를 기반으로 자동 실행.
- 작업 모니터링: 대시보드를 통해 작업 성능 확인.
4. AWS Glue 주요 용어
- 데이터 카탈로그: 메타데이터 저장소로 각 AWS 계정과 리전에 하나씩 존재.
- 크롤러: 데이터 소스에 연결해 스키마를 분석하고 테이블 정의 생성.
- 다이내믹 프레임(Dynamic Frame): 구조적 및 비구조적 데이터를 처리하기 위한 유연한 테이블.
- 스크립트: PySpark 또는 Scala로 작성된 ETL 작업을 위한 코드.
- 작업 대시보드: 작업 실행 시간, 성공률 등 작업 성능 모니터링.
- 노트북 인터페이스: Jupyter 기반으로 스크립트를 개발, 디버깅, 배포할 수 있는 환경.
- 트리거: 스케줄 또는 이벤트 기반으로 ETL 작업 실행.
- 작업자(Worker): ETL 작업 실행을 위한 데이터 처리 단위(DPU).
5. 특징 및 이점
- 자동화된 스키마 관리
크롤러와 데이터 카탈로그를 활용해 데이터 소스의 메타데이터를 자동으로 수집 및 관리. - 서버리스 환경
- 별도의 인프라 관리 필요 없음.
- 실행한 만큼만 비용 지불(DPU 기준).
- 다양한 데이터 소스와 통합
- Amazon S3, RDS, DynamoDB, Redshift 등 AWS 데이터 서비스뿐 아니라 JDBC 연결 및 타사 데이터베이스 지원.
- 데이터 변환 지원
- 다이내믹 프레임과 Apache Spark 환경을 활용해 반구조적 데이터 처리 및 변환 가능.
- 사용 편의성
- 시각적 작업 편집기 및 노트북 인터페이스로 직관적인 데이터 파이프라인 작성.
- 트리거로 일정 및 이벤트 기반 작업 자동화.
반응형
'AWS > Glue' 카테고리의 다른 글
2. Glue 작동원리 (0) | 2025.01.08 |
---|---|
1. Glue 란 무엇인가? (2) | 2025.01.07 |