반응형

파이프라인 4

[Data Engineering] Case Study 2. Flink 기반 log streaming pipeline - Log 와 사용자를 잇는 무지개 다리 / 카카오 클라우드 플랫폼팀

카카오 파이프로스트 프로젝트 추후 해당 링크를 통해 다시 스터디 할 것 if.kakao.com/session/116 if(kakao)2020 오늘도 카카오는 일상을 바꾸는 중 if.kakao.com 1. Streaming? Pipeline? 1) 로그 파이프라인 로그 파이프라인이란 데이터 처리 단계의 출력이 다음 단계의 입력으로 이어지는 구조 로깅 이벤트 시퀀스를 처리하는 플로우 Source 와 destination 이 있는 데이터 흐름 로그 데이터 전송과 변환을 자동화(최근에 추가된 정의) 2) 스트리밍 데이터의 연속적인 흐름 데이터 흐름 안에서 의 연속적인 연산과 처리 Real time Like video streaming 로그 파이프라인에 비해 실시간성이 매우 강조되는 것 3) Batch vs St..

[Data Engineering] Case Study 1. 바닥부터 시작하는 데이터 인프라 / Retrica PipeLine Case - 변성윤님

이번에는 변성윤님이 레트리카라는 스타트업에 재직하실 때, 구축하셨던 데이터 파이프라인 자료를 바탕으로 케이스 스터디를 진행했다. 케이스 스터디를 한 링크는 아래 링크를 통해서 추후에 다시 스터디를 진행할 수 있도록 한다. www.slideshare.net/zzsza/little-big-data-1 Little Big Data #1. 바닥부터 시작하는 데이터 인프라 Little Big Data #1 다양한 사람들의 데이터 사이언스 이야기에서 발표한 자료입니다 궁금한 것은 언제나 문의주세요 :) 행사 후기는 https://zzsza.github.io/etc/2018/04/21/little-big-data/ 에 있습니다! (2018.5 내 www.slideshare.net 1. 데시보드 만들기 1) 데이터 분..

Spotify Project 05. Spotify - AWS Data 수집 프로세스 구축

현재 진행하고 있는 프로젝트는 페스트 캠퍼스에서 듣고 있는 인강인 한승수 강사님의 데이터 엔지니어링 강의를 다시한번 복습하고 내재화하고자 진행하는 프로젝트인 점 참고바란다. 서비스를 만들기에 앞어 가장 중요한 것은 - 어떤 데이터가 필요한 것인지? - 데이터들을 어떻게 수집할 것인지? ( API 형태? 로그 데이터? 등) - 데이터들을 어떻게 저장할 것인지? 이 3가지인 것 같다. 이번에는 데이터를 어떻게 저장할 것인지에 대하여 고민을 하고 이를 구현한 과정에 대해서 기록한다.. 우선, 데이터를 수집하고 저장하고자하는 프로세스는 아래와 같다. (한승수 강사님의 강의를 복습하여 엔지니어링 프로세스를 내재화 시키는 사이드 프로젝트이기 때문에 전반적인 프로세스는 강의 내용과 비슷한 점은 참고 바란다) 이번 사..

Spotify Project 04. Spotify 에서 artists , album 정보 가져오기

현재 진행하고 있는 프로젝트는 페스트 캠퍼스에서 듣고 있는 인강인 한승수 강사님의 데이터 엔지니어링 강의를 다시한번 복습하고 내재화하고자 진행하는 프로젝트인 점 참고바란다. 이 프로젝트에서의 수집해야되는 정보를 가져오기 위한 코드를 만들었다. 이번 프로젝트에서의 가상의 목표는 spotify의 api 를 활용하여 간단한 챗봇 서비스를 만들어 보는 것이므로, artists 정보, album 등 우리가 spotify 라는 음원 서비스를 이용하면서 많이 찾는 정보를 우선 수집하고자 한다. 특히 이중에서 artist 와 ablum 정보는 전 세계 모든 아티스트들이 공통적으로 생성하는 정보이며, spotify 서비스를 이용하는 유저들이 가장 많이 참고하는 데이터이기에 위 데이터를 먼저 수집하는 것이 좋겠다는 판단 ..

반응형