반응형
AWS Glue란?
AWS Glue는 데이터를 쉽게 검색, 준비, 이동 및 통합할 수 있는 서버리스 데이터 통합 서비스입니다. 데이터를 분석, 머신 러닝, 애플리케이션 개발에 활용할 수 있도록 지원하며, 추가 생산성 도구와 데이터 운영 기능도 제공합니다.
주요 특징
- 서버리스 아키텍처
- 관리할 인프라 없이 데이터 통합 가능.
- ETL(Extract, Transform, Load), ELT, 스트리밍 데이터 처리 모두 지원.
- 중앙 데이터 카탈로그
- 70개 이상의 데이터 소스를 연결, 중앙 집중화된 데이터 관리.
- 데이터 스키마와 권한을 체계적으로 관리 가능.
- 유연한 데이터 처리 및 확장성
- 다양한 데이터 유형 및 크기를 지원.
- 수요에 따라 자동 확장 가능.
- 종량제 요금제로 비용 최적화.
주요 기능
AWS Glue의 기능은 세 가지 주요 범주로 나뉩니다.
- 데이터 검색 및 구성
- 여러 데이터 소스를 통합하여 중앙 집중화된 데이터 카탈로그에 저장.
- AWS Glue 크롤러로 자동 데이터 스키마 추론 및 카탈로그화.
- 데이터베이스 및 테이블 권한 관리.
- AWS와 온프레미스 데이터 소스를 연결해 데이터 레이크 구축.
- 데이터 변환, 준비 및 정리
- 시각적 ETL 작업 캔버스를 통해 데이터를 시각적으로 변환.
- 스트리밍 데이터 정리 및 변환으로 실시간 데이터 처리.
- 머신 러닝 기반 데이터 중복 제거 및 정리(FindMatches).
- 민감한 데이터 감지 및 관리.
- 대화형 세션으로 ETL 코드 편집, 디버깅, 테스트 지원.
- 데이터 파이프라인 구축 및 모니터링
- 작업 부하에 따라 리소스 자동 확장 및 축소.
- 이벤트 기반 트리거로 작업 자동화.
- Spark, Ray 엔진 기반 작업 실행 및 실시간 모니터링.
- 복잡한 워크플로 설계 및 종속 작업 체계화.
AWS Glue Studio
AWS Glue Studio는 시각적 인터페이스를 제공해 데이터 통합 작업을 쉽게 설계, 실행, 모니터링할 수 있도록 지원합니다.
- 시각적 워크플로 설계.
- 작업 스크립트 편집 및 디버깅.
- Apache Spark 기반 서버리스 ETL 엔진 통합.
AWS Glue의 장점
- 운영 효율성: 서버리스로 관리 부담 감소.
- 비용 절감: 필요할 때만 리소스 사용.
- 확장성: 데이터 크기와 유형에 관계없이 지원.
- AWS 생태계 통합: Amazon S3, Athena, Redshift 등과 연동.
AWS Glue는 데이터 통합을 단순화하고, 데이터를 분석과 머신 러닝에 더 빠르게 활용할 수 있는 이상적인 서비스입니다.
반응형
'AWS > Glue' 카테고리의 다른 글
3. Glue 의 컨셉 (0) | 2025.01.08 |
---|---|
2. Glue 작동원리 (0) | 2025.01.08 |