반응형

전체 글 584

[AWS Glue] Glue connection 에 대하여

1. Glue Connection 이란 - AWS Glue에서 데이터 스토어나 데이터베이스와의 연결을 설정하는 데 사용되는 서비스 - 예를 들어, AWS Glue는 데이터를 추출, 변환, 로드(ETL)하기 위해 다양한 소스에서 데이터를 가져올 수 있음 - 즉, Glue Connection은 이런 데이터 소스와 Glue의 ETL 작업 간의 다리 역할을 하는 서비스 2. Glue Connection 을 사용할 경우 Glue Job 은 어디서 도는 것인가 - Glue Job 은 VPC 외부에서 돌며, Glue connection 을 이용해 vpc-subnet 을 타고 들어가 외부와 통신을 함 - 왜냐하면, Glue 는 퍼블릭 서비스이기 때문에 VPC 외부에 생성이 됨 - 하지만, Glue Connection ..

클라우드/AWS 2023.12.22

RDB 공유 잠금 기능

1. 개요 오늘 팀 단톡방에 좋은 질문이 올라와 읽던 중 공유 2. 질문 - 공유 잠금 기능이 MSSQL 만의 기능인가? -> "MSSQL 은 기본적으로 SELECT 시 공유잠금(S Lock) 이 걸린다. 이는 MSSQL 의 기본 격리수준(Isolation Level) 이 Read Committed 이기 때문이다. 즉, DML(INSERT, UPDATE, DELETE) 작업중인 ROW 또는 TABLE 에 SELECT 할 경우, 해당 작업이 끝나야 SELECT 할 수 있다는 의미이다. 3. 답변 - DBMS 마다 lock 정책이 다르지만, 공유잠금이란 개념은 모두 존재 - MSSQL 은 read commited 정책을 도입함 - 아래 내용은 read lock 이 왜 생기게 되었는지, 이를 해결하기 위해선 ..

[AWS Glue] Glue 서비스 외부에서 파라미터 추가하는 법

1. 개요 이번에 HDC 프로젝트를 진행하면서 glue 서비스를 사용했음 glue 를 돌릴 때, glue 외부에서 어떻게 파라미터를 넣는지 몰랐는데 이번에 알게 되었음 2. 방법 - 간단함. sys 변수에 환경변수를 통해 파라미터를 넣어주는 코드를 짜고 - Glue 의 getResolvedOptions 함수를 이용하여 sys 변수에 있는 변수를 꺼내주면 됨 3. 샘플 1) MWAA 코드 glue_task_AAAA = GlueJobOperator( task_id = 'glue_task_samp;le', job_name = 'sample-mssql-job', script_args = { '--query' : "select * from dbo.sample_table a", '--table_name' : "sa..

클라우드/AWS 2023.12.21

[AWS IAM] AWS IAM Role에 대해 복습할 때 참고하면 좋은 링크

향후 IAM Role에 대해서 복습할 때 아래의 링크를 참고하여 다시 학습하도록 할 것 아래의 링크는 IAM 에 대한 설명이 자세히 되어 있고 무엇보다도 Role 을 읽는 방법에 대해 잘 서술되어 있어 기억이 가물가물할 때 읽으면 좋은 것 같다 https://musma.github.io/2019/11/05/about-aws-iam-policy.html AWS IAM: IAM Policy 알아보기 (이론편) 목차 서론 AWS IAM은 반드시 공부하자 본론 기본 개념과 용어 정리 IAM 정책 JSON 문법 IAM Policy의 종류 [실습] 쪽지시험 ... musma.github.io

클라우드/AWS 2023.12.20

개발하다가 공부하는 영어 01

1. Consolidate - 통합하다, 합치다, 굳히다, 강화하다 - Example : Consolidating data from these diverse sources(다양한 소스로부터 데이터를 합치다) - LINK : https://en.dict.naver.com/#/entry/enko/28df8e42aee74a838b94d30189142a13 네이버 영어사전 미국/영국식 발음, 여러 종류의 출판사 사전 뜻풀이, 풍부한 유의어/반의어, 대표사전 설정 기능, 상세검색 기능, 영어 단어장 제공 en.dict.naver.com 2. Daunt - 어렵게하다, 주춤하게 하다 - Example : Consolidating data from these diverse sources into a unified d..

기타 Develop 2023.12.20

[Data Catalog] 데이터 카탈로그 간략 정리

[ 데이터 카탈 로그란 무엇인가] 데이터 카탈로그란? 데이터 카탈로그는 사용자가 필요한 정보를 빠르게 찾을 수 있도록 하는 회사의 데이터 자산 목록 카탈로그는 대부분 다른 데이터에 대한 기본 정보를 제공하고 그것이 무엇인지 설명하는 메타데이터 사용자는 데이터 관리 및 검색 도구와 결합한 데이터 카탈로그를 갖게 됨 [링크 참고] - 자세한 사항은 추후 아래 링크를 참고해서 다시 읽기 https://velog.io/@baeyuna97/%EB%8D%B0%EC%9D%B4%ED%84%B0-%EC%B9%B4%ED%83%88%EB%A1%9C%EA%B7%B8 데이터 카탈로그 데이터 카탈로그는 사용자가 필요한 정보를 빠르게 찾을 수 있도록 하는 회사의 데이터 자산 목록입니다. 카탈로그는 대부분 다른 데이터에 대한 기본 ..

[SQL]카테시안 조인을 잘 설명한 사이트 기록

카테시안 조인은 A 집합의 데이터 각각이 B 집합의 모든 데이터와 조인되는 것을 뜻한다고 한다. SQL BOOSTER에서는 아래 그림을 사용해 카테시안 조인을 설명할 수 있으며, CUS_GD 집합 두 건이 ITM_TP 집합 네 건과 모두 조인 처리되어, 3번과 같이 총 8건의 데이터가 만들어진다. 요약하기위해 참고한 사이트이다. 이 사이트가 나에게는 이해하기 쉽게 카테시안 조인에 대해 정리를 잘 한 것 같다 https://sweetquant.tistory.com/323 카테시안 조인 이해하기 지난 글에서는 셀프조인에 대해 살펴봤습니다. https://sweetquant.tistory.com/322 셀프 조인 이해하기 안녕하세요. 오늘은 셀프 조인(Self Join)에 대해 정말 간단하게 설명해볼까 합니다..

[Spark] 스파크 조인

8.1 조인 표현식 #python3 DF.join( JoinDF , JoinExpression, (joinType) ) - JoinDF : 조인 대상 - JoinExpression : 조인 표현식(조건) - joinType : 조인 타입( 생략가능 / defaultValue : inner ) 왼쪽, 오른쪽 데이터 셋에 있는 하나 이상의 키값을 비교하고 왼쪽 데이터 셋과 오른쪽 데이터 셋의 결합 여부를 결정하는 조인 표현식의 평가 결과에 따라 두 개의 데이터 셋을 조인 가장 많이 사용하는 조인식은 동등 조인(equi-join) 더 복잡한 조인 정책도 지원함 8.2 조인 타입 내부 조인(inner join) 왼쪽, 오른쪽 데이터 셋에 키가 있는 로우를 유지 외부 조인(outer join) 왼쪽이나 오른쪽 데..

[Spark] 스파크 집계연산 정리 1

집계를 수행하려면 키나 그룹을 지정하고 하나 이상의 컬럼을 변환하는 방법을 지정하는 집계함수를 사용 SELECT 가장 간단한 형태의 그룹화, 집계를 수행해 데이터 프레임의 전체 데이터를 요약 GROUP BY 하나 이상의 키를 지정, 값을 가진 컬럼을 변환하기 위해 다른 집계 함수 사용 WINDOW 하나 이상의 키를 지정할수 있음, 값을 가진 컬럼을 변환하기 위해 다른 집계 함수 사용 가능. 하지만 함수의 입력으로 사용할 로우는 현재 로우와 연관성이 있어야 함 GROUP SET 서로 다른 레벨의 값을 집계할 때 사용. SQL, 데이터프레임의 롤업, 큐브 사용 가능 ROLL UP 하나 이상의 키 지정 가능, 컬럼 변환하는데 다른 집계 함수 사용하여 계층적 요약된 값 구함

[Kafka] 2. Kafka 기본 구성

1. 5분만에 카프카 맛보기 1-1. 카프카의 기본 구성 카프카는 데이터를 받아서 전달하는 데이터 버스(data bus) 의 역할을 함 구성 명칭 프로듀서(producer) : 데이터를 만들어주는 쪽 컨슈머(Consumer) : 데이터를 소비하는 쪽 주키퍼 : 카프카의 정상동작을 보장하기 위해 메타 데이터를 관리하는 코디네이터 카프카 프로듀서가 메시지를 어떻게 보내느냐에 따라 카프카에 메시지가 잘 저장될수도 손실될 수도 있음 카프카는 중앙에서 프로듀서로부터 **전달받은 메시지들을 저장**하고, 컨슈머에 **메시지를 전달하는** 두가지 역할을 함 2021년 4월 **주키퍼 없이 구동될 수 있는 카프카**가 처음 공개됨 카프카는 주키퍼를 사용하여 **메타데이터 관리** 및 **브로커들의 노드 관리**를 하고..

반응형