반응형

분류 전체보기 584

[Postgresql] 데이터 import 하는 법

데이터를 import 하는 법에는 여러가지가 있지만. 최근 회사에서 pgadmin 을 통해서 csv 파일을 import 하는 작업을 했다. 추후 동일한 작업을 하거나 다른 방법으로 postgresql 에 데이터를 넣을 경우에 대비하여 아래 링크를 걸어두고 참고해야 겠다. 참고 링크 https://ysyblog.tistory.com/143 [PostgreSQL] CSV File를 Table에 삽입(Import)하기. CSV파일을 PostgreSQL에 삽입하는 방법은 다음과 같습니다. 먼저 데이터를 다운로드합니다. 그리고 데이터를 넣을 데이블을 만들어줍니다. DROP TABLE IF EXISTS sale_data; CREATE TABLE sale_data ( order_id S.. ysyblog.tistor..

[Python] try, except, raise 문

1. 개요 파이썬에서는 예외 처리를 위해 try, except 문을 많이 사용하지만 raise 가 들어가는 것을 많이 못 본 것 같다. 들어간 프로젝트의 코드를 분석하던 중에 raise 가 나와서 간단하게 기록하려고 한다 2. 내용 raise 문은 try, except 문에 인위적으로 에러를 발생시킬 때 많이 사용한다. 즉, 사용자가 직접 에러를 발생시키는 기능이라고 보면된다. 하지만, 많이 사용하면 코드를 읽기 어려워지기 때문에 필요한 곳에서만 사용해야 한다 3. 참고 링크 https://justkode.kr/python/try-except Python에서 try, except, raise로 예외 처리 하기. 항상 프로그램은 사용자의 실수든, 코드를 잘못 작성 했든, 원하지 않는 방향으로 흘러 갈 때가..

언어/Python 2022.06.17

[NiFi] 9. Create / Export / Import Template

Lalithnarayan 의 블로그를 참고하여 한국어로 간단하게 옮겼다 1. 개요 nifi template 는 nifi 에 존재하는 프로세서(processor) 들을 연결한 아키텍처(파이프라인)을 모듈(라이브러리) 화 시켜 언제든지 재사용이 가능하게 만든 것 template 의 목적은 이전에 작성한 모듈을 다시 재사용하기 위한 것 2. Steps Step 01. Creating Template - 마우스 오른쪽 클릭으로 create template 을 선택한다 - 그리고 template 이름을 적으면 완성 Step 02. Download / Export created Template - 유저 인터페이스에서 심볼 클릭 후 templates 를 클릭 - 그러면, 아래 이미지와 같이 생성한 template 를..

챕터 6.1 API 는 어디서 찾을까

1) dataframe( dataset ) 메서드 데이터 셋의 하위모듈은 다양한 메서드를 제공 메서드를 사용해 여러 가지 문제를 해결 가능 Column 메서드 alias 나 contains 같이 컬럼과 관련된 여러가지 매서드를 제공 데이터 타입과 관련된 다양한 함수를 제공 val df = spark.read.format(”csv”). option( ). df.printSchema( ) —> 스키마 정보 출력 df.createOrReplaceTempView( “짓고자 하는 테이블 이름”) —> 데이터 프레임 바탕으로 임시 테이블 생성 —> 테이블을 보려면 spark.sql( “쿼리문”) 을 작성해야함 6.2 스파크 데이터 타입으로 변환하기 반드시 알아두어야 하는 방법 데이터 타입 변환은 lit 함수를 사용..

에러 / 성능 테스트 참고

향후 에러 테스트 및 성능 테스트를 하게 될것으로 생각하여 미리 책을 추천받고자 했다. 아래와 같은 답변을 받았다 책보단 블로그를 살펴보시는게 좋을것같습니다. 요새 정리를 잘해놔서요 jmeter하고 nGrinder 위주로 검색해보시면 됩니다 jmeter는 인텔리제이에서도 연동돼있어서 바로 테스트도 해보실 수 있을거예요 감사합니다!!

최근 부족하다 느끼는 것들

최근에 면접들을 보면서 프로젝트를 진행함에 있어 간과해왔던 것들로 인해 좋은 기회들을 많이 놓치는 것 같다.. 얼마전까지만해도 그냥 단지.. 파이프라인을 빠르게 구축하고 잘 돌아가기만 하면 되지 라고 생각했었지만 그것이 아니었다. 데이터 엔지니어는 파이프라인의 특징, 성격, 기반 그리고 이 파이프라인을 구축했을 때 회사에 어떤 영향을 미칠지 모두 고려하고 파이프라인을 구축해야된다.. 이것을 요즈음 뼈저리게 느낀다. 그러기 위해서는 공부를 열심히 해야만하고 하더라도 꼼꼼하게 의문을 가지면서 느리더라도 탄탄하게 해야한다는 것을 깨달았다. 다음 회사에 들어가면..느꼈던 것들을 바탕으로..꼼꼼하게 그리고 완벽하게 데이터 파이프라인을 구축하도록 노력해야겠다..

쉰다는 것?

요즈음 약 한달정도 블로그를 쉰 것 같다. 개인 노션에 포트폴리오 정리와 퇴사를 한 김에 못 쉬었던 것들을 몰아서 쉰다는 핑계로 그런 것 같은데.. 이제 정신을 차리고 다시 시작해야지 ㅎㅎㅎ.. 아무래도 많이 두려웠던 것 같다.. 들어간 회사에서 내 커리어를 더 이상 쌓을 수 없다는 판단이 들었을 때 내가 부족한 탓인가.. 내가 회사 보는 눈이 없었던 것인가.. 나는 왜 이러지.. 내가 뭘 했길래.. 나는 왜 이런 회사만..? 많은 생각들이 들었던 것은 사실이다. 하지만 그 때 당시에는 난 최선의 선택을 한 것이고 그 선택의 결과가 이런 것임에도 어쩔수 없으니 말이다. 하지만. 뒤돌아보면 조금씩은 앞으로 나아가고 있다는 것은 확실하다. 다만 나아감에 있어서 남들과 비교했을 때, 아직 안정적이지 않다는 생..

챕터 4. 구조적 API 개요

스파크 구조적 API 에는 다음과 같은 세가지 분산 컬렉션 API 가 존재 DataSet DataFrame SQL 데이터 뷰 구조적 API 는 데이터 흐름을 정의하는 기본 추상화 개념이며, 기본 3가지 개념이 중요하다 타입형 / 비타입형 API 의 개념과 차이점 핵심 용어 스파크가 구조적 API 의 데이터 흐름을 해석하고 클러스터에서 실행하는 방식 DataFrame 과 Dataset 스파크는 DataFrame 과 Dataset 이라는 구조화된 컬렉션을 가지고 있음 잘 정의된 로우와 컬럼을 가지는 분산 테이블 형태의 컬렉션 불변성을 가진다. 스키마 스키마는 데이터프레임의 컬럼명과 데이터 타입을 정의함 데이터 소스에서 얻거나 직접 정의할 수 있음 스파크의 구조적 데이터 타입 개요 실행 계획 수립과 처리에 사..

반응형