데이터 엔지니어링 프로젝트 및 인강/4. 데이터 엔지니어링 스타터 키트 Project

1주차 기록 - 데이터팀의 역할에 대하여 summary

쟈누이 2021. 11. 16. 23:28
반응형

 

위 강좌를 듣고 추후에는 개별적으로 데이터 파이프라인과 

연관된 대시보드를 만들고자 한다.

 

그에 앞서 강좌의 내용들을 정리할 예정이다

 

 

1. 데이터팀의 역할 



1) 데이터 조직의 목표

실리콘밸리에서 날아온 데이터 엔지니어링 스타터 키트 with Python 강의 일부 발췌

  • 데이터를 내부 데이터 베이스에 저장 ( 프로덕션 데이터베이스)
  • 외/내부 데이터를 수집해서 한군데에 저장(데이터 웨어하우스), 프로덕선 db 와 별도의 db 를 사용
  • 데이터를 추출하여 원하는 형태로 변형 후 데이터 웨어하우스에 적재 하는 작업을 etl 작업이라 불린다

 


2) 데이터 엔지니어의 업무

  • 외부의 데이터를 추출하여 원하는 형태로 변형하여 dw 에 적재하는 작업을 하는 인원을 데이터 엔지니어라고 부른다.
  • 데이터 분석용 dw 를 만들고 관리하는 것이 데이터 엔지니어의 첫번째 업무
  • dw 에 실제로 데이터를 적재하는 etl 업무를 하는것이 두번째 업무
  • 데이터 관리를 위해 프레임워크를 사용하는 것이 세번째 업무
  • 최근에는 airflow 를 많이 사용하고 있음 이는 etl 업무를 관리 및 쉽게 만들어주는 프레임 워크임

 


3) 데이터 엔지니어의 중요성

  • 데이터 기반의 비즈니스 운영을 위해서는 데이터 인프라가 우선적으로 갖춰져야함
  • 하지만 대부분은 데이터 인프라에 대해서 안일하게 생각하는 경향이 잇음
  • 그러기에 2번-> 3번의 과정을 통해 시행착오를 거쳐 1번의 중요성을 깨달음

 

 

 

 

 


2. 데이터 조직이 하는 일


  • 신뢰할 수 있는 데이터로 부가가치를 만들어낸다
  • 데이터로 돈을 버는 회사가 아니면 데이터 팀은 부수적인 조직일 뿐이다. 즉 서포트 조직에 가깝다
  • 내부에서 결정을 잘할 수 있게 돠주는 것, 외부의 경험을 개선하여 효율을 높이는 것을 도와준다.

 

 

 

 

이상 1주차 수업 중 필요하다고 생각하는 내용들을 간단하게 정리해 보았다.

 

 

 

 

3. 강좌


만약 강좌 내용이 궁금하면 아래 링크를 타고 들어가면 된다

 

https://programmers.co.kr/learn/courses/12916

 

반응형