반응형

Data Engineering/데이터엔지니어링 케이스 스터디 7

[Data Catalog] 데이터 카탈로그 간략 정리

[ 데이터 카탈 로그란 무엇인가] 데이터 카탈로그란? 데이터 카탈로그는 사용자가 필요한 정보를 빠르게 찾을 수 있도록 하는 회사의 데이터 자산 목록 카탈로그는 대부분 다른 데이터에 대한 기본 정보를 제공하고 그것이 무엇인지 설명하는 메타데이터 사용자는 데이터 관리 및 검색 도구와 결합한 데이터 카탈로그를 갖게 됨 [링크 참고] - 자세한 사항은 추후 아래 링크를 참고해서 다시 읽기 https://velog.io/@baeyuna97/%EB%8D%B0%EC%9D%B4%ED%84%B0-%EC%B9%B4%ED%83%88%EB%A1%9C%EA%B7%B8 데이터 카탈로그 데이터 카탈로그는 사용자가 필요한 정보를 빠르게 찾을 수 있도록 하는 회사의 데이터 자산 목록입니다. 카탈로그는 대부분 다른 데이터에 대한 기본 ..

[Naver Case] Kubernetes를 이용한 효율적인 데이터 엔지니어링(Airflow on Kubernetes VS Airflow Kubernetes Executor) – 1

1. 개요 쿠버네티스를 이용하여 효율적으로 데이터 엔지니어링 작업을 진행한 케이스 수집 두개의 파트로 나뉘어 있음 자세한 사항은 아래 링크 참고 2. 참고 링크 https://engineering.linecorp.com/ko/blog/data-engineering-with-airflow-k8s-1/ Kubernetes를 이용한 효율적인 데이터 엔지니어링(Airflow on Kubernetes VS Airflow Kubernetes Executor) - 1 - LINE 안녕하세요. LINE Financial Data Platform을 운영하고 개발하고 있는 이웅규입니다. 저는 지난 NAVER DEVIEW 2020에서 발표했던 Kubernetes를 이용한 효율적인 데이터 엔지니어링 (Airflow on Ku..

[ WATCHA ] Case Study 5. 멀티클라우드를 이용한 로그 분석 플랫폼 개발하기

1. 개요 watch 에서는 필요에 따라 로그 데이터를 접근성이 편리한 rdb에 저장하거나, 여러 외부 솔루션을 적용하여 다양한 패턴 분석을 통해 서비스 개선을 하고 있다. 하지만, 서비스가 성장함에 따라 로그 데이터가 빠르게 증가하면서 기존에 구축된 방식을 이용해서는 분석이 어려워져 빠른 개선이 필요한 상황 로그를 한곳에 통합, 데이터를 빠르게 분석하고, 어떠한 환경에서도 유연하게 수집 및 가공이 가능한 시스템 구축이 필요 2. 프로젝트 목표 1) 로그를 한곳에 통합, 로그를 한곳에 저장 빠르게 분석 가능한 구글 빅쿼리 사용 구글 솔루션인 firebase, google analytics 등 클라이언트 영역에서 발생하는 로그들도 손쉽게 bigquery에 통합 가능 Web, app, server 등 모든 ..

[ 마이 뮤직 테이스트 ] Case Study 4. 데이터 파이프라인 케이스 스터디

1. 마이 뮤직 테이스트 ? 좋아하는 아티스트의 공연을 팬들의 도시에서 직접 말들 수 있는 기회를 제공한다는 아이디어에서 출발한 회사이며, 팬들에게는 원하는 아티스트의 콘서트를, 아티스트에게는 다양한 콘서트의 기회를 그리고 프로모터에겐느 안정적인 수익구조와 지속적인 콘서트 기획의 기회를 제공, 각 아티스트 별 전 세계 콘서트 수요를 실시간으로 확인할 수 있는 데이터 기반의 콘서트 메이킹 플랫폼이다. 2. 파이프라인 구축 동기 마뮤테에서 진행하는 공연의 수가 늘어남에 따라 분석해야되는 공연의 수가 크게 증가 모델 구축을 위한 연구 개발시간이 줄어, 분석을 제 시간에 하지 못하는 결과 초래 데이터 엔지니어 팀은 효율적으로 시간을 활용하여 모델 연구 개발에 매진하고, real-time 으로 판매량 예측 데이터..

[Data Engineering] Case Study 3. 빠르게 성장하는 스타트업의 DW / 토스 개발자 컨퍼런스 SLASH21

1. 개요 스타트업 데이터 엔지니어들에게 가장 고민스러운 것은 데이터 웨어하우스를 구축할 때 "어떤 프로세스를 구축을 해야될지" 와 "어떤 것을 중점에 놓아야 될 것인지" 이 두가지 였던 것 같다. 이번 토스 개발자 컨퍼런스 SLASH21 에서 해당 세션을 들으며, 어렴풋이 가지고 있었던 위와같은 고민들을 어느정도 해소할 수 있었던 것 같다 2. 키워드 이번 세션의 키워드는 아래와 같이 나뉜다 DB Review 디멘젼 테이블 ODS 설계 및 운영 효율적인 협업을 위한 도구 메타정보 관리 데이터 품질 위 키워드들에 대해서 정리한 내용을 블로그에 기록하고자 한다. 3. 키워드 정리 1) DB Review 개발에 있어 속도도 중요하지만 명확한 데이터 모델과 최소한의 표준을 준수하는 것이 중요하다. 이것은 두가..

[Data Engineering] Case Study 2. Flink 기반 log streaming pipeline - Log 와 사용자를 잇는 무지개 다리 / 카카오 클라우드 플랫폼팀

카카오 파이프로스트 프로젝트 추후 해당 링크를 통해 다시 스터디 할 것 if.kakao.com/session/116 if(kakao)2020 오늘도 카카오는 일상을 바꾸는 중 if.kakao.com 1. Streaming? Pipeline? 1) 로그 파이프라인 로그 파이프라인이란 데이터 처리 단계의 출력이 다음 단계의 입력으로 이어지는 구조 로깅 이벤트 시퀀스를 처리하는 플로우 Source 와 destination 이 있는 데이터 흐름 로그 데이터 전송과 변환을 자동화(최근에 추가된 정의) 2) 스트리밍 데이터의 연속적인 흐름 데이터 흐름 안에서 의 연속적인 연산과 처리 Real time Like video streaming 로그 파이프라인에 비해 실시간성이 매우 강조되는 것 3) Batch vs St..

[Data Engineering] Case Study 1. 바닥부터 시작하는 데이터 인프라 / Retrica PipeLine Case - 변성윤님

이번에는 변성윤님이 레트리카라는 스타트업에 재직하실 때, 구축하셨던 데이터 파이프라인 자료를 바탕으로 케이스 스터디를 진행했다. 케이스 스터디를 한 링크는 아래 링크를 통해서 추후에 다시 스터디를 진행할 수 있도록 한다. www.slideshare.net/zzsza/little-big-data-1 Little Big Data #1. 바닥부터 시작하는 데이터 인프라 Little Big Data #1 다양한 사람들의 데이터 사이언스 이야기에서 발표한 자료입니다 궁금한 것은 언제나 문의주세요 :) 행사 후기는 https://zzsza.github.io/etc/2018/04/21/little-big-data/ 에 있습니다! (2018.5 내 www.slideshare.net 1. 데시보드 만들기 1) 데이터 분..

반응형