3. Glue 의 컨셉
·
AWS/Glue
1. AWS Glue 요약AWS Glue는 완전 관리형 ETL(추출, 변환, 로드) 서비스로, 데이터 소스와 대상을 쉽게 연결하여 데이터를 이동하고 처리할 수 있도록 설계되었으며, ETL 프로세스를 단순화하여 데이터 준비 및 변환 작업을 효율적으로 수행할 수 있도록 지원합니다.2. 핵심 구성 요소데이터 카탈로그(Data Catalog)메타데이터 저장소로 테이블 정의, 작업 정의, ETL 워크플로우를 관리하는 제어 정보 포함.크롤러(Crawlers)데이터 소스에 연결하여 스키마를 분석하고, 데이터 카탈로그에 메타데이터 테이블 정의를 생성.ETL 작업(ETL Jobs)Apache Spark 스크립트를 사용하여 데이터를 변환하고 대상을 채우는 비즈니스 로직.트리거(Triggers)스케줄이나 이벤트에 따라 작업..
2. Glue 작동원리
·
AWS/Glue
1. AWS Glue 요약AWS Glue는 서버리스 ETL(추출, 변환, 로드) 서비스로, 데이터를 효율적으로 준비하고 처리하며, 데이터 웨어하우스 및 데이터 레이크를 구축하는 데 도움을 주며, 사용자가 데이터 소스와 대상 간의 데이터 변환 및 로드를 자동화하여 데이터 분석 및 머신러닝 프로젝트를 효율적으로 수행할 수 있도록 설계되었습니다. 2. 주요 특징ETL 작업 관리데이터 추출, 변환, 적재를 자동화.작업 로직 저장 및 실행 모니터링.런타임 로그 및 알림 생성.서버리스 환경인프라 프로비저닝 필요 없음.따뜻한 인스턴스 풀을 활용하여 작업 시작 시간 단축.데이터 처리 및 통합다양한 데이터 소스 및 대상을 지원:Amazon S3, DynamoDB, Redshift, RDS, JDBC 호환 데이터베이스 등..
1. Glue 란 무엇인가?
·
AWS/Glue
AWS Glue란?AWS Glue는 데이터를 쉽게 검색, 준비, 이동 및 통합할 수 있는 서버리스 데이터 통합 서비스입니다. 데이터를 분석, 머신 러닝, 애플리케이션 개발에 활용할 수 있도록 지원하며, 추가 생산성 도구와 데이터 운영 기능도 제공합니다.주요 특징서버리스 아키텍처관리할 인프라 없이 데이터 통합 가능.ETL(Extract, Transform, Load), ELT, 스트리밍 데이터 처리 모두 지원.중앙 데이터 카탈로그70개 이상의 데이터 소스를 연결, 중앙 집중화된 데이터 관리.데이터 스키마와 권한을 체계적으로 관리 가능.유연한 데이터 처리 및 확장성다양한 데이터 유형 및 크기를 지원.수요에 따라 자동 확장 가능.종량제 요금제로 비용 최적화.주요 기능AWS Glue의 기능은 세 가지 주요 범주..
[AWS] IAM IamPass Role 에 대한 간단한 정리
·
AWS
1. 정의 IamPass role"은 다른 서비스가 특정 서비스를 이용할 수 있는 권한을 제공하는 역할을 말함 2. 예시 하나의 서비스가 다른 서비스의 API를 호출하거나 데이터에 접근할 때, 해당 서비스가 필요로 하는 인증 및 권한 부여를 위해 "IamPass role"을 사용할 수 있음 이를 통해 서비스 간의 상호 작용이 보안적으로 관리될 수 있음
[AWS 공지] 24.02.22 Amazon RDS for PostgreSQL, 마이너 버전 16.2, 15.6, 14.11, 13.14 및 12.18 지원
·
AWS
이제 Amazon Relational Database Service(RDS) for PostgreSQL에서 PostgreSQL의 최신 마이너 버전인 16.2, 15.6, 14.11, 13.14 및 12.18을 지원합니다. 이번 RDS for PostgreSQL 릴리스에는 병렬 처리, 인메모리 빌드 등 Hierarchical Navigable Small Worlds(HNSW) 인덱스 빌드를 위한 성능을 향상하는 pgvector 0.6.0에 대한 지원도 포함되어 있습니다. 최신 마이너 버전으로 업그레이드하여 PostgreSQL 이전 버전의 알려진 보안 취약점을 해결하고 버그 수정, 성능 개선 및 PostgreSQL 커뮤니티에서 추가된 새로운 기능의 이점을 누리시기 바랍니다. 자동 마이너 버전 업그레이드를 활..
[AWS] AWS CloudHSM 이란?
·
AWS
1. AWS CloudHSM 이란? AWS CloudHSM 서비스는 AWS 클라우드 내에서 전용 HSM(Hardware Security Module) 인스턴스를 사용함으로써 데이터 보안에 대한 기업, 계약 및 규제 준수 요구 사항을 충족하는 데 도움이 됩니다. AWS와 AWS Marketplace 파트너는 AWS 플랫폼의 중요한 데이터를 보호하기 위한 다양한 솔루션을 제공하지만, 암호화 키 관리에 대한 계약 또는 규제 요건이 적용되는 일부 애플리케이션과 데이터의 경우 추가 보호가 필요할 수 있습니다. CloudHSM은 기존의 데이터 보호 솔루션을 보완합니다. 이를 통해 사용자는 안전한 키 관리를 위한 정부 표준에 따라 설계되고 검증된 HSM 내에서 암호화 키를 보호할 수 있습니다. CloudHSM을 사용..
[IAM] IAM 계정에서 Access key 생성방법
·
AWS
엑세스 키 생성방법이 잘 기록되어 있어 나중에 참고하기 위해 링크를 저장 https://coding-nurse.tistory.com/239 [AWS] IAM사용자의 엑세스키 ID와 비밀 엑세스키를 잊어버렸을 때 (access key ID, secret access key) 어서와 ~~ IAM사용자의 엑세스키 ID와 비밀 엑세스키를 잊어버렸다구?? 걱정마.. 방법이 있으니까 😉 AWS 엑세스키 ID , 비밀번호 잊어버렸을 때 * 먼저 IAM을 생성했을 때 엑세스키를 저장하는 단계 coding-nurse.tistory.com
[AWS Glue] Glue connection 에 대하여
·
AWS
1. Glue Connection 이란 - AWS Glue에서 데이터 스토어나 데이터베이스와의 연결을 설정하는 데 사용되는 서비스 - 예를 들어, AWS Glue는 데이터를 추출, 변환, 로드(ETL)하기 위해 다양한 소스에서 데이터를 가져올 수 있음 - 즉, Glue Connection은 이런 데이터 소스와 Glue의 ETL 작업 간의 다리 역할을 하는 서비스 2. Glue Connection 을 사용할 경우 Glue Job 은 어디서 도는 것인가 - Glue Job 은 VPC 외부에서 돌며, Glue connection 을 이용해 vpc-subnet 을 타고 들어가 외부와 통신을 함 - 왜냐하면, Glue 는 퍼블릭 서비스이기 때문에 VPC 외부에 생성이 됨 - 하지만, Glue Connection ..
[AWS Glue] Glue 서비스 외부에서 파라미터 추가하는 법
·
AWS
1. 개요 이번에 HDC 프로젝트를 진행하면서 glue 서비스를 사용했음 glue 를 돌릴 때, glue 외부에서 어떻게 파라미터를 넣는지 몰랐는데 이번에 알게 되었음 2. 방법 - 간단함. sys 변수에 환경변수를 통해 파라미터를 넣어주는 코드를 짜고 - Glue 의 getResolvedOptions 함수를 이용하여 sys 변수에 있는 변수를 꺼내주면 됨 3. 샘플 1) MWAA 코드 glue_task_AAAA = GlueJobOperator( task_id = 'glue_task_samp;le', job_name = 'sample-mssql-job', script_args = { '--query' : "select * from dbo.sample_table a", '--table_name' : "sa..
[AWS IAM] AWS IAM Role에 대해 복습할 때 참고하면 좋은 링크
·
AWS
향후 IAM Role에 대해서 복습할 때 아래의 링크를 참고하여 다시 학습하도록 할 것 아래의 링크는 IAM 에 대한 설명이 자세히 되어 있고 무엇보다도 Role 을 읽는 방법에 대해 잘 서술되어 있어 기억이 가물가물할 때 읽으면 좋은 것 같다 https://musma.github.io/2019/11/05/about-aws-iam-policy.html AWS IAM: IAM Policy 알아보기 (이론편) 목차 서론 AWS IAM은 반드시 공부하자 본론 기본 개념과 용어 정리 IAM 정책 JSON 문법 IAM Policy의 종류 [실습] 쪽지시험 ... musma.github.io