반응형
1. 요약
- 쏘카는 데이터 활용도를 높이기 위해 오래전부터 데이터 마트를 운영
- 시간이 지나면서 많고 복잡한 데이터 파이프라인을 관리해야하는 이슈가 생김
- 쏘카 파이프라인의 큰 축은 빅쿼리임
- 다양한 로우 데이터를 빅쿼리로 모으고 테이블을 생성하여 활용
> 장점
- 스토리지 비용이 비교적 저렴합니다.
- SQL을 통해서 프로그래밍 지식이 없어도 쉽게 데이터를 조회하고, 변형할 수 있습니다.
- 다양한 소스의 데이터를 쉽게 저장하고, 조회할 수 있습니다.
> 단점
- 쉽게 넣을 수 있다 보니, 데이터 검증에 대한 고려를 하지 않는 경우가 많습니다.
- 데이터(데이터셋, 테이블) 히스토리와 오너쉽 등을 파악하기 어렵습니다.
- 데이터 간 의존성, 삭제 영향도 또한 파악하기 어려움
- 시간이 지날수록 데이터를 추가하는 난이도가 높아져감 ( 많은 데이터 축적 / 과거 데이터 히스토리 파악 / 수백줄에 달하는 쿼리 )
> data build tool (dbt)
- dbt는 데이터 엔지니어링의 큰 요소 중 하나인 ETL or ELT (Extract, Transform, Load) 중 변형(Transform)에 집중
- dbt를 통해 데이터를 검증, 변형한 후 자동화된 문서와 데이터 리니지(계보)를 제공해서 데이터 사용자가 쉽게 원하는 데이터를 찾아서 쓸 수 있게 만듬
- 가장 매력적인 부분은 대부분의 기능들을 SQL만 알아도 이용할 수 있고, Yaml만 조작해도 수백 GB의 큰 테이블에 대한 테스트, 문서 화 등의 일련의 작업들을 쉽게 할 수 있다는점
2. 참고 링크
https://tech.socarcorp.kr/data/2022/07/25/analytics-engineering-with-dbt.html
https://www.humphreyahn.dev/blog/efficient-elt-pipelines-with-dbt
반응형
'개발자에 대한 기록 > IT 부분 동향 케이스 스터디' 카테고리의 다른 글
[Careerly] Earth 2 재미있어 보이는 부동산 게임(?) (0) | 2021.04.29 |
---|---|
[Careerly] 카카오톡 선물하기의 분석가라면? - 데이터리안 (0) | 2021.04.26 |
[Careerly] 페이스북 Reality Lab 스크랩 - 손목 움직임 트래킹관련 (0) | 2021.03.23 |
[Careerly] 페이스북 Reality Lab 비전 관련 기사 스크랩 (0) | 2021.03.11 |
1. 용어 정리 - 백엔드 부분(1) (0) | 2021.03.04 |