반응형

데이터 엔지니어링 프로젝트 및 인강/4. 데이터 엔지니어링 스타터 키트 Project 4

4주차 기록( 4 ) - 데이터 엔지니어의 기본자세 / ETL / AIRFLOW 설명

1. 질문 문답 1) 커리어를 계속해서 발전시키고 싶다면?(1) 건강한 몸과 마음이 중요 어떤 기술을 아느냐가 아닌 결과를 내는데 초점 내가 하는 일에 결과를 내는데 필요한 기술의 배움에 초점 1) 커리어를 계속해서 발전시키고 싶다면?(2) 요즘 세상의 전문성이란? 변화를 두려워하지 않는 마인드셋이다. 자신감을 갖고 나에게 무슨일이 주어거나, 하고싶은 일이 있으면 나는 그것을 할 수 있다 라는 자신감을 가진다.. 이는 작은일이라도 결과물을 내면서 키워지게 되어 있다. 전문성이란 변화를 두려워하지 않고 도전하는 마인드셋 한방에 끝내려고 하지 않기. 한방에 끝내지 말고 어디서 시작하던 언제든지 배우고 멈춘거 같으면 그것을 타계할 방법 찾아보기, 더 배울 수 있는 곳으로 갈것인가, 아니면 새로운 것을 시작할것..

2주차 기록( 2 ) - 수업에 사용될 RedShit / RDB 에 대한 간단한 정리

1. redshift 소개 1) dw 는 무엇인가 기본적으로 sql 이 기반이 된다. 맵리듀스가 나왓어도 sql 기반의 데이터 처리의 중요성은 없어지지 않았다. 데이터 베이스 시스템은 50년 이상되엇고 굉장히 성숙해잇음, 하지만 맵리듀스는 짧은데다 굉장히 복잡하고 문제 해결 능력이 떨어지니 그 위에 데이터 베이스 시스템을 구현한 것이 하이브 맵 리듀스가 진화한 것이 스파크 이며 동시에 여러가지 기능을 실행가능한다. 구조화된 데이터 처리에 있어서 sql 만한 것이 없다. OLAP : 내부에서 데이터 처리를 위한 DB OLTP : 외부에서 데이터 처리를 위한 프로적션 DB 2) scalable sql engine in aws 모든 db 은 pk 를 지정할수 있는데 반해, dw 는 이를 보정안해줌 왜냐하면 이..

2주차 기록( 1 ) - 데이터 엔지니어의 일주일

데이터 엔지니어의 일주일에 대해서 배웠다. 이렇게 흘러간다! 는 아니지만, 대략 데이터 엔지니어가 어떻게 일을 하는지 알 수 있었으며, 내가 앞으로 일을 함에 있어서 어떻게 적용하면 좋은지 고민해 볼 수 있었던 유용한 시간이었다. 1. 데이터엔지니어의 일주일 보기 1) Sprint 데모 미팅 2주동안 무슨일을 할것인지 계획을 세움 ( 2주라는 기간이 절대적인 것은 아니다 ) 지난 2주 동안 무슨 일을 했는지 점검하는 시간을 갖음 과업을 진행하거나 달성함에 있어서 어떤 점이 부족했는지 점검 2) Sprint 회고 데모 미팅과 비슷하게 어떤 일을 했는지 서로 공유 이 과정에서 어떤 점이 부족했고 어떻게 보완해야되는지 체크 3) Sprint 플래닝 시 주의사항 40% 의 시간은 인프라 코드의 리펙토링에 사용 ..

1주차 기록 - 데이터팀의 역할에 대하여 summary

위 강좌를 듣고 추후에는 개별적으로 데이터 파이프라인과 연관된 대시보드를 만들고자 한다. 그에 앞서 강좌의 내용들을 정리할 예정이다 1. 데이터팀의 역할 1) 데이터 조직의 목표 데이터를 내부 데이터 베이스에 저장 ( 프로덕션 데이터베이스) 외/내부 데이터를 수집해서 한군데에 저장(데이터 웨어하우스), 프로덕선 db 와 별도의 db 를 사용 데이터를 추출하여 원하는 형태로 변형 후 데이터 웨어하우스에 적재 하는 작업을 etl 작업이라 불린다 2) 데이터 엔지니어의 업무 외부의 데이터를 추출하여 원하는 형태로 변형하여 dw 에 적재하는 작업을 하는 인원을 데이터 엔지니어라고 부른다. 데이터 분석용 dw 를 만들고 관리하는 것이 데이터 엔지니어의 첫번째 업무 dw 에 실제로 데이터를 적재하는 etl 업무를 ..

반응형