개발자에 대한 기록/IT 부분 동향 케이스 스터디

[쏘카] 데이터에 신뢰성과 재사용성까지, Analytics Engineering with dbt사내 dbt(data build tool) 도입 및 운영기 간단 기록

쟈누이 2022. 7. 26. 10:48
반응형

 

 

1. 요약


  • 쏘카는 데이터 활용도를 높이기 위해 오래전부터 데이터 마트를 운영
  • 시간이 지나면서 많고 복잡한 데이터 파이프라인을 관리해야하는 이슈가 생김
  • 쏘카 파이프라인의 큰 축은 빅쿼리임
  • 다양한 로우 데이터를 빅쿼리로 모으고 테이블을 생성하여 활용


> 장점

  • 스토리지 비용이 비교적 저렴합니다.
  • SQL을 통해서 프로그래밍 지식이 없어도 쉽게 데이터를 조회하고, 변형할 수 있습니다.
  • 다양한 소스의 데이터를 쉽게 저장하고, 조회할 수 있습니다.

 

> 단점

  • 쉽게 넣을 수 있다 보니, 데이터 검증에 대한 고려를 하지 않는 경우가 많습니다.
  • 데이터(데이터셋, 테이블) 히스토리와 오너쉽 등을 파악하기 어렵습니다.
  • 데이터 간 의존성, 삭제 영향도 또한 파악하기 어려움
  • 시간이 지날수록 데이터를 추가하는 난이도가 높아져감 ( 많은 데이터 축적 / 과거 데이터 히스토리 파악 / 수백줄에 달하는 쿼리 )

 

> data build tool (dbt)

  • dbt는 데이터 엔지니어링의 큰 요소 중 하나인 ETL or ELT (Extract, Transform, Load) 중 변형(Transform)에 집중
  • dbt를 통해 데이터를 검증, 변형한 후 자동화된 문서와 데이터 리니지(계보)를 제공해서 데이터 사용자가 쉽게 원하는 데이터를 찾아서 쓸 수 있게 만듬
  • 가장 매력적인 부분은 대부분의 기능들을 SQL만 알아도 이용할 수 있고, Yaml만 조작해도 수백 GB의 큰 테이블에 대한 테스트, 문서 화 등의 일련의 작업들을 쉽게 할 수 있다는점

 

 

 

2. 참고 링크


https://tech.socarcorp.kr/data/2022/07/25/analytics-engineering-with-dbt.html

 

데이터에 신뢰성과 재사용성까지, Analytics Engineering with dbt

 

tech.socarcorp.kr

https://www.humphreyahn.dev/blog/efficient-elt-pipelines-with-dbt

 

dbt로 ELT 파이프라인 효율적으로 관리하기

배경

www.humphreyahn.dev

 

반응형