3. Glue 의 컨셉
·
AWS/Glue
1. AWS Glue 요약AWS Glue는 완전 관리형 ETL(추출, 변환, 로드) 서비스로, 데이터 소스와 대상을 쉽게 연결하여 데이터를 이동하고 처리할 수 있도록 설계되었으며, ETL 프로세스를 단순화하여 데이터 준비 및 변환 작업을 효율적으로 수행할 수 있도록 지원합니다.2. 핵심 구성 요소데이터 카탈로그(Data Catalog)메타데이터 저장소로 테이블 정의, 작업 정의, ETL 워크플로우를 관리하는 제어 정보 포함.크롤러(Crawlers)데이터 소스에 연결하여 스키마를 분석하고, 데이터 카탈로그에 메타데이터 테이블 정의를 생성.ETL 작업(ETL Jobs)Apache Spark 스크립트를 사용하여 데이터를 변환하고 대상을 채우는 비즈니스 로직.트리거(Triggers)스케줄이나 이벤트에 따라 작업..
2. Glue 작동원리
·
AWS/Glue
1. AWS Glue 요약AWS Glue는 서버리스 ETL(추출, 변환, 로드) 서비스로, 데이터를 효율적으로 준비하고 처리하며, 데이터 웨어하우스 및 데이터 레이크를 구축하는 데 도움을 주며, 사용자가 데이터 소스와 대상 간의 데이터 변환 및 로드를 자동화하여 데이터 분석 및 머신러닝 프로젝트를 효율적으로 수행할 수 있도록 설계되었습니다. 2. 주요 특징ETL 작업 관리데이터 추출, 변환, 적재를 자동화.작업 로직 저장 및 실행 모니터링.런타임 로그 및 알림 생성.서버리스 환경인프라 프로비저닝 필요 없음.따뜻한 인스턴스 풀을 활용하여 작업 시작 시간 단축.데이터 처리 및 통합다양한 데이터 소스 및 대상을 지원:Amazon S3, DynamoDB, Redshift, RDS, JDBC 호환 데이터베이스 등..
1. Glue 란 무엇인가?
·
AWS/Glue
AWS Glue란?AWS Glue는 데이터를 쉽게 검색, 준비, 이동 및 통합할 수 있는 서버리스 데이터 통합 서비스입니다. 데이터를 분석, 머신 러닝, 애플리케이션 개발에 활용할 수 있도록 지원하며, 추가 생산성 도구와 데이터 운영 기능도 제공합니다.주요 특징서버리스 아키텍처관리할 인프라 없이 데이터 통합 가능.ETL(Extract, Transform, Load), ELT, 스트리밍 데이터 처리 모두 지원.중앙 데이터 카탈로그70개 이상의 데이터 소스를 연결, 중앙 집중화된 데이터 관리.데이터 스키마와 권한을 체계적으로 관리 가능.유연한 데이터 처리 및 확장성다양한 데이터 유형 및 크기를 지원.수요에 따라 자동 확장 가능.종량제 요금제로 비용 최적화.주요 기능AWS Glue의 기능은 세 가지 주요 범주..