Data Engineering/데이터엔지니어링 케이스 스터디

[Data Engineering] Case Study 3. 빠르게 성장하는 스타트업의 DW / 토스 개발자 컨퍼런스 SLASH21

쟈누이 2021. 5. 4. 11:55
반응형

 

 

 

1. 개요


스타트업 데이터 엔지니어들에게 가장 고민스러운 것은 데이터 웨어하우스를 구축할 때 "어떤 프로세스를 구축을 해야될지" 와 "어떤 것을 중점에 놓아야 될 것인지" 이 두가지 였던 것 같다. 

 

이번 토스 개발자 컨퍼런스 SLASH21 에서 해당 세션을 들으며, 어렴풋이 가지고 있었던 위와같은 고민들을 어느정도 해소할 수 있었던 것 같다

 

 

 

2. 키워드


이번 세션의 키워드는 아래와 같이 나뉜다

  • DB Review
  • 디멘젼 테이블
  • ODS 설계 및 운영
  • 효율적인 협업을 위한 도구
  • 메타정보 관리
  • 데이터 품질

위 키워드들에 대해서 정리한 내용을 블로그에 기록하고자 한다.

 

 

 

3. 키워드 정리


 

1) DB Review

 

출처 : https://toss.im/slash-21/sessions/2-2

개발에 있어 속도도 중요하지만  명확한 데이터 모델과 최소한의 표준을 준수하는 것이 중요하다. 이것은 두가지 이유에서 중요한데

  • 불필요한 커뮤니케이션 비용을 줄일 수 있고
  • 효율적인 데이터 활용을 위한 첫 걸음이다.

위 두가지 이유로 명확한 데이터 모델을 설정하는 것과 최소한의 표준을 준수하고 지키는 것은 꼭 필요하다.

하지만, 과도한 주의 / 통제로 개발속도를 줄이는 일은 없어야 될 것이다.

 

 

2) 디멘젼 테이블

 

디멘젼 테이블은 차원에 대한 정의 테이블이다.

디멘젼 테이블에대한 자세한 설명은 아래 페이지를 참고하도록 하자.

toss.im/slash-21/sessions/2-2

 

SLASH 21

 

toss.im

 

디멘젼 테이블은 차동화를 위한 선제 조건이며, 만약 쿼리가 if else, where 절 을 이용하여 구성되어 있을 시에 디멘션 테이블로 관리하는 것이 장기적으로는 이득이다

(이 부분에 대한 것은 추후 스터디를 해야겠다)

 

 

 

3) ODS (Operational Data Store)

 

출처 : https://toss.im/slash-21/sessions/2-2

ODS 란 집계, 효율을 위한 중간 가공 단계의 데이터 저장소이다. 즉, 데이터에 대한 추가적인 작업을 위해 데이터 원천들로부터 데이터를 추출 및 가공하여 통합한 데이터베이스라고 생각하면 편할 것 같다. 

 

자세한 내용은 아래 링크 참고

specialscene.tistory.com/32

 

4-1 데이터 처리 프로세스_ODS(Operational Data Store)

ODS(Operational Data Store : 운영 데이터 스토어) 1. ODS이란?  - ODS는 데이터에 대한 추가 작업을 위해 다양한 데이터 원천(Source)들로부터 데이터를 추출 및 통합한 데이터베이스  - ODS 내의 데이터는

specialscene.tistory.com

복잡한 부분은 단순화시키고 표준에 안맞는 부분을 전처리하여 필요에 따라 언제든지 사용할 수 있는 

중간 집계 형태로 SUMMARY 한 테이블이다. 잘 설계하고 운영 시에는 데이터의 효율적인 활용이 가능하다.

 

덕분에 팀 내의 Data 를 회사 전체의 시각에서 자유롭게 활용이 가능하다.

 

 

4) 효율적인 협업을 위한 도구

 

데이터 웨엉하우스 구축 시, 쉬운 접근이 필요한 그룹과 작업과 유지, 보수 등을 위한 체계적인 접근이 필요한 그룹을 나누고 관리하며, 이들 사이에서 적절한 조율이 필요하다.

 

 

 

5) 메타정보 관리

 

데이터 활용의 첫 걸음이자 중요한 부분이다. 최소한의 설명으로 data 의 의미를 효율적으로 공유하는 것이 전사 차원의 데이터 활용 역량에 많은 영향을 줄 수 있기에 메타정보 관리는 매우 중요하다

 

대표적인 예시) Uber Data book

eng.uber.com/databook/

 

Databook: Turning Big Data into Knowledge with Metadata at Uber

Databook, Uber's in-house platform for surfacing and exploring contextual metadata, makes dataset discovery and exploration easier for teams across the company.

eng.uber.com

 

 

 

6) 데이터 품질

 

데이터 품질 관리 시스템은 Data Quality Management System 으로 DQ 시스템으로 불린다. 

 

신뢰할 수 있는 데이터 환경 구축에 있어 DQ 시스템은 중요하며, 다양한 데이터가 늘어남에 따라 데이터 품질의 중요성을 늘어나기 때문에 이 시스템의 구축은 매우 중요하다

 

 

 

4. 스타트업에 있어 중요한 점


스타트업은 빠르게 움직이는 조직이기에 데이터를 대함에 있어서 빠른 탐지와 대응이 중심이 되어야 한다.

 

시간과 인력에 한계가 있기에 필요한 기능을 중심으로 빠르게 구현을 마친 후에 여유가 되면 제대로된 시스템으로 개발하는 순서로의 개발 단계가 필요하다.

반응형