3. Glue 의 컨셉

2025. 1. 8. 23:33·AWS/Glue
반응형

1. AWS Glue 요약

AWS Glue는 완전 관리형 ETL(추출, 변환, 로드) 서비스로, 데이터 소스와 대상을 쉽게 연결하여 데이터를 이동하고 처리할 수 있도록 설계되었으며, ETL 프로세스를 단순화하여 데이터 준비 및 변환 작업을 효율적으로 수행할 수 있도록 지원합니다.


2. 핵심 구성 요소

  1. 데이터 카탈로그(Data Catalog)
    • 메타데이터 저장소로 테이블 정의, 작업 정의, ETL 워크플로우를 관리하는 제어 정보 포함.
  2. 크롤러(Crawlers)
    • 데이터 소스에 연결하여 스키마를 분석하고, 데이터 카탈로그에 메타데이터 테이블 정의를 생성.
  3. ETL 작업(ETL Jobs)
    • Apache Spark 스크립트를 사용하여 데이터를 변환하고 대상을 채우는 비즈니스 로직.
  4. 트리거(Triggers)
    • 스케줄이나 이벤트에 따라 작업 실행을 시작.

3. 일반적인 워크플로우

  1. 데이터 소스 및 대상 정의: 데이터 카탈로그에서 데이터 스키마와 메타데이터 정의.
  2. 크롤러 사용: 데이터 소스에서 메타데이터를 자동으로 가져와 테이블 정의 생성.
  3. ETL 작업 정의: 스크립트를 작성하여 데이터 추출, 변환, 로드 작업 설정.
  4. 작업 실행: 필요 시 수동 실행 또는 트리거를 기반으로 자동 실행.
  5. 작업 모니터링: 대시보드를 통해 작업 성능 확인.

4. AWS Glue 주요 용어

  • 데이터 카탈로그: 메타데이터 저장소로 각 AWS 계정과 리전에 하나씩 존재.
  • 크롤러: 데이터 소스에 연결해 스키마를 분석하고 테이블 정의 생성.
  • 다이내믹 프레임(Dynamic Frame): 구조적 및 비구조적 데이터를 처리하기 위한 유연한 테이블.
  • 스크립트: PySpark 또는 Scala로 작성된 ETL 작업을 위한 코드.
  • 작업 대시보드: 작업 실행 시간, 성공률 등 작업 성능 모니터링.
  • 노트북 인터페이스: Jupyter 기반으로 스크립트를 개발, 디버깅, 배포할 수 있는 환경.
  • 트리거: 스케줄 또는 이벤트 기반으로 ETL 작업 실행.
  • 작업자(Worker): ETL 작업 실행을 위한 데이터 처리 단위(DPU).

5. 특징 및 이점

  1. 자동화된 스키마 관리
    크롤러와 데이터 카탈로그를 활용해 데이터 소스의 메타데이터를 자동으로 수집 및 관리.
  2. 서버리스 환경
    • 별도의 인프라 관리 필요 없음.
    • 실행한 만큼만 비용 지불(DPU 기준).
  3. 다양한 데이터 소스와 통합
    • Amazon S3, RDS, DynamoDB, Redshift 등 AWS 데이터 서비스뿐 아니라 JDBC 연결 및 타사 데이터베이스 지원.
  4. 데이터 변환 지원
    • 다이내믹 프레임과 Apache Spark 환경을 활용해 반구조적 데이터 처리 및 변환 가능.
  5. 사용 편의성
    • 시각적 작업 편집기 및 노트북 인터페이스로 직관적인 데이터 파이프라인 작성.
    • 트리거로 일정 및 이벤트 기반 작업 자동화.

 

반응형
저작자표시 비영리 변경금지 (새창열림)

'AWS > Glue' 카테고리의 다른 글

4. Glue 는 주요 구성요소  (1) 2025.01.15
2. Glue 작동원리  (0) 2025.01.08
1. Glue 란 무엇인가?  (4) 2025.01.07
'AWS/Glue' 카테고리의 다른 글
  • 4. Glue 는 주요 구성요소
  • 2. Glue 작동원리
  • 1. Glue 란 무엇인가?
쟈누
쟈누
Ad astra per aspera
    반응형
  • 쟈누
    쟈누의 기록공간
    쟈누
  • 전체
    오늘
    어제
    • 분류 전체보기 (444)
      • AWS (31)
        • Glue (4)
        • S3 (1)
      • 클라우드 (0)
      • Data Engineering (37)
        • GitHub (10)
        • NiFi (11)
        • Spark (10)
        • Snowflake (0)
        • 머신러닝, AI (6)
      • 언어 (118)
        • 데이터 베이스 (42)
        • JAVA (9)
        • Python (34)
        • Java Script (15)
        • Linux (18)
      • 프로젝트, 인강 그리고 책 (30)
        • Spotify Project (7)
        • RASA chatbot Project (9)
        • Naver shopping Project (6)
        • 빅데이터를 지탱하는 기술 (8)
      • OLD (56)
        • IT 용어 사전 (13)
        • Front End (12)
        • Back End (31)
      • Error code 모음 (165)
        • 1. SQL errors (17)
        • 2. Hadoop errors (20)
        • 3. Linux Errors (14)
        • 4. Python errors (33)
        • 5. JAVA, Spring errors (41)
        • 6. Jav Script errors (10)
        • 7. Dev Tools errors (9)
        • 8. Git errors (8)
        • 9. Jenkins Errors (4)
        • 10. airflow Errors (2)
        • 11. Aws errors (7)
      • 개인 (1)
        • 책 (1)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
    • 블로그 관리
    • 글쓰기
  • 링크

  • 공지사항

    • 간단한 블로그 소개
  • 인기 글

  • 태그

    파이썬
    에러
    java
    Spring
    SQL
    python error
    Git
    linux
    json
    API
    node
    NiFi
    error
    MySQL
    설치
    리눅스
    install
    AWS
    자바
    Python
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
쟈누
3. Glue 의 컨셉
상단으로

티스토리툴바