반응형
위 강좌를 듣고 추후에는 개별적으로 데이터 파이프라인과
연관된 대시보드를 만들고자 한다.
그에 앞서 강좌의 내용들을 정리할 예정이다
1. 데이터팀의 역할
1) 데이터 조직의 목표
- 데이터를 내부 데이터 베이스에 저장 ( 프로덕션 데이터베이스)
- 외/내부 데이터를 수집해서 한군데에 저장(데이터 웨어하우스), 프로덕선 db 와 별도의 db 를 사용
- 데이터를 추출하여 원하는 형태로 변형 후 데이터 웨어하우스에 적재 하는 작업을 etl 작업이라 불린다
2) 데이터 엔지니어의 업무
- 외부의 데이터를 추출하여 원하는 형태로 변형하여 dw 에 적재하는 작업을 하는 인원을 데이터 엔지니어라고 부른다.
- 데이터 분석용 dw 를 만들고 관리하는 것이 데이터 엔지니어의 첫번째 업무
- dw 에 실제로 데이터를 적재하는 etl 업무를 하는것이 두번째 업무
- 데이터 관리를 위해 프레임워크를 사용하는 것이 세번째 업무
- 최근에는 airflow 를 많이 사용하고 있음 이는 etl 업무를 관리 및 쉽게 만들어주는 프레임 워크임
3) 데이터 엔지니어의 중요성
- 데이터 기반의 비즈니스 운영을 위해서는 데이터 인프라가 우선적으로 갖춰져야함
- 하지만 대부분은 데이터 인프라에 대해서 안일하게 생각하는 경향이 잇음
- 그러기에 2번-> 3번의 과정을 통해 시행착오를 거쳐 1번의 중요성을 깨달음
2. 데이터 조직이 하는 일
- 신뢰할 수 있는 데이터로 부가가치를 만들어낸다
- 데이터로 돈을 버는 회사가 아니면 데이터 팀은 부수적인 조직일 뿐이다. 즉 서포트 조직에 가깝다
- 내부에서 결정을 잘할 수 있게 돠주는 것, 외부의 경험을 개선하여 효율을 높이는 것을 도와준다.
이상 1주차 수업 중 필요하다고 생각하는 내용들을 간단하게 정리해 보았다.
3. 강좌
만약 강좌 내용이 궁금하면 아래 링크를 타고 들어가면 된다
https://programmers.co.kr/learn/courses/12916
반응형
'데이터 엔지니어링 프로젝트 및 인강 > 4. 데이터 엔지니어링 스타터 키트 Project' 카테고리의 다른 글
4주차 기록( 4 ) - 데이터 엔지니어의 기본자세 / ETL / AIRFLOW 설명 (0) | 2021.12.01 |
---|---|
2주차 기록( 2 ) - 수업에 사용될 RedShit / RDB 에 대한 간단한 정리 (0) | 2021.11.19 |
2주차 기록( 1 ) - 데이터 엔지니어의 일주일 (0) | 2021.11.19 |