Data Engineering/데이터엔지니어링 케이스 스터디

[Data Engineering] Case Study 1. 바닥부터 시작하는 데이터 인프라 / Retrica PipeLine Case - 변성윤님

쟈누이 2021. 1. 24. 14:31
반응형

이번에는 변성윤님이 레트리카라는 스타트업에 재직하실 때, 구축하셨던 데이터 파이프라인 자료를 바탕으로 케이스 스터디를 진행했다. 케이스 스터디를 한 링크는 아래 링크를 통해서 추후에 다시 스터디를 진행할 수 있도록 한다.

www.slideshare.net/zzsza/little-big-data-1

 

Little Big Data #1. 바닥부터 시작하는 데이터 인프라

Little Big Data #1 다양한 사람들의 데이터 사이언스 이야기에서 발표한 자료입니다 궁금한 것은 언제나 문의주세요 :) 행사 후기는 https://zzsza.github.io/etc/2018/04/21/little-big-data/ 에 있습니다! (2018.5 내

www.slideshare.net


1. 데시보드 만들기

1) 데이터 분석에서 발견된 문제점

- 데이터 분석가의 데일리 업무 비율이 데이터 분석 보다는 데이터 추출 등의 데이터 관련 요청을 처리해주는데 많은 시간이 듦 
- 데이터 분석가의 업무인 데이터 분석에 많은 시간을 집중하기가 힘듦
- 이 시간을 줄이기 위해 단순 반복 작업 업무를 대시보드를 통해 자동화해보자

2) 시각화 툴

- 데시보드를 만들 때, 내가 다 만들지 않아도 된다..
- mysql 등 데이터를 시각화해주는 오픈소스들이 세상이 많다!

출처 : www.slideshare.net/zzsza/little-big-data-1

- 데쉬보드를 고민할 때는 이 서비스를 사용하는 사람을 중심으로 처음에 고민을 해야되는 것 같다.

출처 : www.slideshare.net/zzsza/little-big-data-1

- 그리고 내가 표현하고자 하는 시각화를 어느 툴이 잘 표현해주는지도 고민을 해봐야..


 

2. 데이터 파이프라인 생성

1) 목표

- 이벤트 레벨까지 데이터를 조회가능한 데쉬보드
- 빅쿼리 비용 절감

출처 : www.slideshare.net/zzsza/little-big-data-1

  • 빅쿼리로 데이터를 다 담은 후에, 이 데이터를 가지고 용도의 데이터로 각각 가공해서 테이블에서 다시 저장해서 사용하는 곳도 있는 듯함
  • 빅쿼리 외에도 카프카를 data lake 로 사용하는 플랫폼도 있음. ELK 를 사용할 경우 카프카를 고민해보는 것도 좋음

출처 : www.slideshare.net/zzsza/little-big-data-1

 

- 로우데이터들을 전부 빅쿼리에 모은 다음에
- 수집한 데이터들을 중복이 없도록 최대한 가공한 다음에 필요한 테이블로 뿌려준다.


 


2) 파이프라인 구축 방법

출처 : www.slideshare.net/zzsza/little-big-data-1
출처 : www.slideshare.net/zzsza/little-big-data-1


3) 개선한 데이터 파이프라인

 

출처 : www.slideshare.net/zzsza/little-big-data-1

 

테스크 매니지먼트를 통해 크론탭에서 발생할 수 있는 fail, success 등 예외 상황을 컨트롤 할수 있게 만듬, 하지만 이 것은 나의 경우에는 try - except 를 사용하여 예외처리를 할 수 있을 것 같다는 생각을 했음

- 이 케이스의 개선 포인트

> 정제되지 않은 Raw 데이터의 사용 최소화 및 한번 가공한 테이블을 재사용
> 데쉬보드로 바로 연결 + 비용 절감 + 분석하기에 편해짐

 


3. 배운점

- 생각보다 데이터 파이프라인은 거창한게 아니라는 것을 다시한번 느꼇음...
- 데이터 파이프 라인은 내부 사정에 맞게 잘 설계해야 함을 다시금 느낀다.

- 카프카를 데이터 레이크로 사용하기도 한다는 것에 놀랐다. 이거는 시간될때 한번 찾아봐서 적용해봐야 겠다.

 

출처 : www.slideshare.net/zzsza/little-big-data-1

- 빅쿼리는 쿼리하는 만큼 데이터 사이즈에 비례해 지용이 부과되기 때문인것 같다...

 

 

 

반응형