AWS/Glue

1. Glue 란 무엇인가?

쟈누 2025. 1. 7. 21:35
반응형

AWS Glue란?

AWS Glue는 데이터를 쉽게 검색, 준비, 이동 및 통합할 수 있는 서버리스 데이터 통합 서비스입니다. 데이터를 분석, 머신 러닝, 애플리케이션 개발에 활용할 수 있도록 지원하며, 추가 생산성 도구데이터 운영 기능도 제공합니다.


주요 특징

  1. 서버리스 아키텍처
    • 관리할 인프라 없이 데이터 통합 가능.
    • ETL(Extract, Transform, Load), ELT, 스트리밍 데이터 처리 모두 지원.
  2. 중앙 데이터 카탈로그
    • 70개 이상의 데이터 소스를 연결, 중앙 집중화된 데이터 관리.
    • 데이터 스키마와 권한을 체계적으로 관리 가능.
  3. 유연한 데이터 처리 및 확장성
    • 다양한 데이터 유형 및 크기를 지원.
    • 수요에 따라 자동 확장 가능.
    • 종량제 요금제로 비용 최적화.

주요 기능

AWS Glue의 기능은 세 가지 주요 범주로 나뉩니다.

  1. 데이터 검색 및 구성
    • 여러 데이터 소스를 통합하여 중앙 집중화된 데이터 카탈로그에 저장.
    • AWS Glue 크롤러로 자동 데이터 스키마 추론 및 카탈로그화.
    • 데이터베이스 및 테이블 권한 관리.
    • AWS와 온프레미스 데이터 소스를 연결해 데이터 레이크 구축.
  2. 데이터 변환, 준비 및 정리
    • 시각적 ETL 작업 캔버스를 통해 데이터를 시각적으로 변환.
    • 스트리밍 데이터 정리 및 변환으로 실시간 데이터 처리.
    • 머신 러닝 기반 데이터 중복 제거 및 정리(FindMatches).
    • 민감한 데이터 감지 및 관리.
    • 대화형 세션으로 ETL 코드 편집, 디버깅, 테스트 지원.
  3. 데이터 파이프라인 구축 및 모니터링
    • 작업 부하에 따라 리소스 자동 확장 및 축소.
    • 이벤트 기반 트리거로 작업 자동화.
    • Spark, Ray 엔진 기반 작업 실행 및 실시간 모니터링.
    • 복잡한 워크플로 설계 및 종속 작업 체계화.

AWS Glue Studio

AWS Glue Studio는 시각적 인터페이스를 제공해 데이터 통합 작업을 쉽게 설계, 실행, 모니터링할 수 있도록 지원합니다.

  • 시각적 워크플로 설계.
  • 작업 스크립트 편집 및 디버깅.
  • Apache Spark 기반 서버리스 ETL 엔진 통합.

AWS Glue의 장점

  • 운영 효율성: 서버리스로 관리 부담 감소.
  • 비용 절감: 필요할 때만 리소스 사용.
  • 확장성: 데이터 크기와 유형에 관계없이 지원.
  • AWS 생태계 통합: Amazon S3, Athena, Redshift 등과 연동.

AWS Glue는 데이터 통합을 단순화하고, 데이터를 분석과 머신 러닝에 더 빠르게 활용할 수 있는 이상적인 서비스입니다.

반응형