4. Glue 는 주요 구성요소
·
AWS/Glue
AWS Glue: ETL 워크플로와 데이터 카탈로그 관리의 핵심AWS Glue는 데이터를 추출(Extract), 변환(Transform), 로드(Load)하는 ETL 워크플로를 손쉽게 설정하고 관리할 수 있는 AWS의 강력한 서비스입니다. AWS Glue Data Catalog와 통합되어 다양한 데이터 소스, 변환, 그리고 저장소에 대한 메타데이터를 관리하며, Apache Hive Metastore를 대체하는 기능도 제공합니다. 이를 통해 사용자는 복잡한 데이터 워크플로를 자동화하고 최적화할 수 있습니다.AWS Glue의 주요 구성 요소AWS Glue Data Catalog역할: AWS 클라우드에서 지속 가능한 메타데이터 저장소로, 다양한 데이터 소스의 메타데이터를 저장합니다.구성: 데이터베이스와 테이블..
1. S3 의 암호화 기능
·
AWS/S3
1. 전송 중 암호화데이터를 S3로 업로드하거나 S3에서 다운로드할 때 네트워크를 통해 데이터를 안전하게 전송하기 위해 사용안전한 데이터 보호 : HTTPS를 통해 데이터를 전송하여 데이터가 중간에서 가로채이더라도 읽을 수 없도록 보호자동 적용 : HTTPS를 기본 프로토콜로 사용하며, 데이터 전송 시 자동으로 암호화가 이루어짐사용자 설정 불필요 : 데이터를 전송할 때, HTTPS를 기본적으로 사용하여 별도의 설정 없이도 데이터가 안전하게 전송  2. 저장 중 암호화 (서버 측 암호화, SSE)    1. Amazon S3 관리형 키를 사용한 서버 측 암호화(SSE-S3)쉽고 자동화된 기본 암호화 방식: Amazon S3가 제공하는 기본 암호화(자동으로 적용)객체별 암호화 키 사용 :  업로드되는 데이터..
3. Glue 의 컨셉
·
AWS/Glue
1. AWS Glue 요약AWS Glue는 완전 관리형 ETL(추출, 변환, 로드) 서비스로, 데이터 소스와 대상을 쉽게 연결하여 데이터를 이동하고 처리할 수 있도록 설계되었으며, ETL 프로세스를 단순화하여 데이터 준비 및 변환 작업을 효율적으로 수행할 수 있도록 지원합니다.2. 핵심 구성 요소데이터 카탈로그(Data Catalog)메타데이터 저장소로 테이블 정의, 작업 정의, ETL 워크플로우를 관리하는 제어 정보 포함.크롤러(Crawlers)데이터 소스에 연결하여 스키마를 분석하고, 데이터 카탈로그에 메타데이터 테이블 정의를 생성.ETL 작업(ETL Jobs)Apache Spark 스크립트를 사용하여 데이터를 변환하고 대상을 채우는 비즈니스 로직.트리거(Triggers)스케줄이나 이벤트에 따라 작업..
2. Glue 작동원리
·
AWS/Glue
1. AWS Glue 요약AWS Glue는 서버리스 ETL(추출, 변환, 로드) 서비스로, 데이터를 효율적으로 준비하고 처리하며, 데이터 웨어하우스 및 데이터 레이크를 구축하는 데 도움을 주며, 사용자가 데이터 소스와 대상 간의 데이터 변환 및 로드를 자동화하여 데이터 분석 및 머신러닝 프로젝트를 효율적으로 수행할 수 있도록 설계되었습니다. 2. 주요 특징ETL 작업 관리데이터 추출, 변환, 적재를 자동화.작업 로직 저장 및 실행 모니터링.런타임 로그 및 알림 생성.서버리스 환경인프라 프로비저닝 필요 없음.따뜻한 인스턴스 풀을 활용하여 작업 시작 시간 단축.데이터 처리 및 통합다양한 데이터 소스 및 대상을 지원:Amazon S3, DynamoDB, Redshift, RDS, JDBC 호환 데이터베이스 등..
1. Glue 란 무엇인가?
·
AWS/Glue
AWS Glue란?AWS Glue는 데이터를 쉽게 검색, 준비, 이동 및 통합할 수 있는 서버리스 데이터 통합 서비스입니다. 데이터를 분석, 머신 러닝, 애플리케이션 개발에 활용할 수 있도록 지원하며, 추가 생산성 도구와 데이터 운영 기능도 제공합니다.주요 특징서버리스 아키텍처관리할 인프라 없이 데이터 통합 가능.ETL(Extract, Transform, Load), ELT, 스트리밍 데이터 처리 모두 지원.중앙 데이터 카탈로그70개 이상의 데이터 소스를 연결, 중앙 집중화된 데이터 관리.데이터 스키마와 권한을 체계적으로 관리 가능.유연한 데이터 처리 및 확장성다양한 데이터 유형 및 크기를 지원.수요에 따라 자동 확장 가능.종량제 요금제로 비용 최적화.주요 기능AWS Glue의 기능은 세 가지 주요 범주..
[AWS] IAM IamPass Role 에 대한 간단한 정리
·
AWS
1. 정의 IamPass role"은 다른 서비스가 특정 서비스를 이용할 수 있는 권한을 제공하는 역할을 말함 2. 예시 하나의 서비스가 다른 서비스의 API를 호출하거나 데이터에 접근할 때, 해당 서비스가 필요로 하는 인증 및 권한 부여를 위해 "IamPass role"을 사용할 수 있음 이를 통해 서비스 간의 상호 작용이 보안적으로 관리될 수 있음
[Redshift Error] Caused by: com.amazon.redshift.util.RedshiftException: ERROR: COPY with MANIFEST parameter requires full path of an S3 object
·
Error code 모음/11. Aws errors
1. 원인 glue spark job 에서 redshift 작업을 할 때, iam role 이 필요함. 이를 위해 aws_iam_role로 glue 에서 s3와 redshift 에서 작업할 수 있는 권한을 주어야 함. 하지만, 기입한 role에 작업할 수 있는 권한이 없거나, 잘못 기입되었을 떄 발생 나의 경우에는 기입한 iam 이 잘못 기입되어 있어서 발생함(아래와 같이 입력해야 한다) 2. 해결방법 아래 예제에 있는대로 입력을 해야 한다. 3. 참고 링크 https://stackoverflow.com/questions/60923776/redshift-copy-from-parquet-manifest-in-s3-fails-and-says-manifest-parameter-requ Redshift copy..
[RDS Error] Cannot create a publicly accessible DBInstance. The specified VPC does not support DNS resolution, DNS hostnames, or both. Update the VPC and then try again (Service: AmazonRDS; Status Code: 400; Error Code: InvalidVPCNetworkStateFault
·
Error code 모음/11. Aws errors
1. 원인 RDS에서 public access 시 dns 관련 설정이 허용되지 않아 작업을 못하면서 벌어지는 에러 2. 참고 링크 https://iamreadytocommit.tistory.com/42 aws RDS 생성중 VPC 관련 에러가 발생하는 경우 RDS 생성중 아래와 같은 에러가 발생했다. Cannot create a publicly accessible DBInstance. The specified VPC does not support DNS resolution, DNS hostnames, or both. Update the VPC and then try again (Service: AmazonRDS; Status Code: 400; Error iamreadytocommit.tistory.com
[AWS공지] AWS 외부로 이동할 때 인터넷으로 무료 데이터 전송
·
카테고리 없음
Amazon Web Services(AWS)를 채택하는 주된 이유 중 하나는 워크로드를 혁신, 구축, 배포 및 모니터링할 수 있도록 해주는 다양한 서비스 선택 때문이라고 말씀하셨습니다. AWS는 거의 모든 클라우드 워크로드를 지원하기 위해 지속적으로 서비스를 확장해 왔습니다. 이제 컴퓨팅, 스토리지, 데이터베이스, 네트워킹, 분석, 기계 학습(ML), 인공 지능(AI) 등을 위한 200개 이상의 완전한 기능을 갖춘 서비스를 제공합니다. 예를 들어, Amazon Elastic Compute Cloud(Amazon EC2)는 다른 주요 클라우드 공급자보다 많은 750개 이상의 일반적으로 사용 가능한 인스턴스를 제공하며 수많은 관계형, 분석, 키-값, 문서 또는 그래프 데이터베이스 중에서 선택할 수 있습니다 ..
[AWS 공지] 24.02.22 Amazon RDS for PostgreSQL, 마이너 버전 16.2, 15.6, 14.11, 13.14 및 12.18 지원
·
AWS
이제 Amazon Relational Database Service(RDS) for PostgreSQL에서 PostgreSQL의 최신 마이너 버전인 16.2, 15.6, 14.11, 13.14 및 12.18을 지원합니다. 이번 RDS for PostgreSQL 릴리스에는 병렬 처리, 인메모리 빌드 등 Hierarchical Navigable Small Worlds(HNSW) 인덱스 빌드를 위한 성능을 향상하는 pgvector 0.6.0에 대한 지원도 포함되어 있습니다. 최신 마이너 버전으로 업그레이드하여 PostgreSQL 이전 버전의 알려진 보안 취약점을 해결하고 버그 수정, 성능 개선 및 PostgreSQL 커뮤니티에서 추가된 새로운 기능의 이점을 누리시기 바랍니다. 자동 마이너 버전 업그레이드를 활..