AWS/Glue

2. Glue 작동원리

쟈누 2025. 1. 8. 22:57
반응형

1. AWS Glue 요약

AWS Glue는 서버리스 ETL(추출, 변환, 로드) 서비스로, 데이터를 효율적으로 준비하고 처리하며, 데이터 웨어하우스 및 데이터 레이크를 구축하는 데 도움을 주며, 사용자가 데이터 소스와 대상 간의 데이터 변환 및 로드를 자동화하여 데이터 분석 및 머신러닝 프로젝트를 효율적으로 수행할 수 있도록 설계되었습니다.

 

2. 주요 특징

  1. ETL 작업 관리
    • 데이터 추출, 변환, 적재를 자동화.
    • 작업 로직 저장 및 실행 모니터링.
    • 런타임 로그 및 알림 생성.
  2. 서버리스 환경
    • 인프라 프로비저닝 필요 없음.
    • 따뜻한 인스턴스 풀을 활용하여 작업 시작 시간 단축.
  3. 데이터 처리 및 통합
    • 다양한 데이터 소스 및 대상을 지원:
      • Amazon S3, DynamoDB, Redshift, RDS, JDBC 호환 데이터베이스 등.
    • 데이터 스트리밍 지원:
      • Amazon Kinesis, Apache Kafka.
  4. Data Catalog 활용
    • 테이블 정의를 통해 데이터 스키마 관리.
    • 작업은 스크립트로 구성되며 트리거를 통해 일정하거나 이벤트 기반으로 실행.
  5. 보안 및 격리
    • 고객 데이터 보호 및 격리된 환경에서 실행.
    • IAM 역할, VPC, 서브넷, 보안 그룹을 통해 데이터 소스 및 대상에 접근.
  6. 네트워크 관리
    • 탄력적 네트워크 인터페이스(ENI)를 활용하여 데이터 소스 및 대상 접근.
    • AWS CloudTrail과 연계하여 API 호출 감사 가능.
  7. 지원되는 엔진
    • Apache Spark와 Ray를 사용한 데이터 처리.

 

반응형