반응형

데이터 6

[Data Engineering] Case Study 1. 바닥부터 시작하는 데이터 인프라 / Retrica PipeLine Case - 변성윤님

이번에는 변성윤님이 레트리카라는 스타트업에 재직하실 때, 구축하셨던 데이터 파이프라인 자료를 바탕으로 케이스 스터디를 진행했다. 케이스 스터디를 한 링크는 아래 링크를 통해서 추후에 다시 스터디를 진행할 수 있도록 한다. www.slideshare.net/zzsza/little-big-data-1 Little Big Data #1. 바닥부터 시작하는 데이터 인프라 Little Big Data #1 다양한 사람들의 데이터 사이언스 이야기에서 발표한 자료입니다 궁금한 것은 언제나 문의주세요 :) 행사 후기는 https://zzsza.github.io/etc/2018/04/21/little-big-data/ 에 있습니다! (2018.5 내 www.slideshare.net 1. 데시보드 만들기 1) 데이터 분..

ML 엔지니어 성윤님이 해주신 좋은 레퍼런스 - 자기개발 참고

현재 내가 속했는 데이터분석 QnA 네트워킹에서 성윤님이 해주신 말씀이 괜찮아 보여서 간단하게 적어 놓는다. 예전에도 어떻게하면 나를 객관적으로 보면서, 어떻게하면 공부하는 것들을 지속적으로 유지하면서 체킹할 수 있는지를 많이 고민해 왔기도 했고.. 여러 방법을 시행해 왔지만 잘 되지 않았었다.. 그리고 공부하던 것이 요즈음 들어서 확확 변하기도 했고, 도중에 몇개는 수정하기도 했으며, 이걸 어떻게 일관성을 유지하면서 어떻게 체크를 할지 고민이 많았지만, 아래 성윤님이 해주신 말을 듣고 하고자 하는 방법들에 있어서 참고할 수 있을 것 같아서 나중에 방법으로 사용하기 위해 기록해둔다. 우선, 내가 지향하고 있는 데이터 엔지니어, 사이언티스트 관련해서 주기적으로 읽기위해 아래 링크를 입력한다. careerl..

데이터 직군 포트폴리오를 만들 때 참고할 것들

데이터분석직군지원할때 포트폴리오 관련... 깃허브링크 말고 플젝한것들 포트폴리오로 제출하라는 회사들이 종종 있다. 이럴때는 포트폴리오의 흐름을 어떻게 잡아가고 얼마나 디테일하게 써야될까..? 아는 분에게 들었던 것을 간단히 정리하자면 포트폴리오는 10장이내로 보통 진행하며 지원하는 회사&포지션에 맞게 프로젝트 구성을 달리하는 것이 기본이라고 한다 프로젝트를 정리할 때, 반드시 1장에 압축할 필요는 없지만 프로젝트별로 2장, 많으면 3장정도로 핵심적인 것만 추려서 정리하면 더 좋을 포트폴리오를 만들 수 있다. 만약에 지원자가 진짜한건지 팩트체크가들어올 경우에는 면접에서 문제가 되는 부분이기에 문제는 안되지만, 면접 때 조리있게 말할 수 있도록 정리하는 것이 필요하다. 그걸 위해서 전체적인 그림이 그려지게끔..

Spotify Project 05. Spotify - AWS Data 수집 프로세스 구축

현재 진행하고 있는 프로젝트는 페스트 캠퍼스에서 듣고 있는 인강인 한승수 강사님의 데이터 엔지니어링 강의를 다시한번 복습하고 내재화하고자 진행하는 프로젝트인 점 참고바란다. 서비스를 만들기에 앞어 가장 중요한 것은 - 어떤 데이터가 필요한 것인지? - 데이터들을 어떻게 수집할 것인지? ( API 형태? 로그 데이터? 등) - 데이터들을 어떻게 저장할 것인지? 이 3가지인 것 같다. 이번에는 데이터를 어떻게 저장할 것인지에 대하여 고민을 하고 이를 구현한 과정에 대해서 기록한다.. 우선, 데이터를 수집하고 저장하고자하는 프로세스는 아래와 같다. (한승수 강사님의 강의를 복습하여 엔지니어링 프로세스를 내재화 시키는 사이드 프로젝트이기 때문에 전반적인 프로세스는 강의 내용과 비슷한 점은 참고 바란다) 이번 사..

Spotify Project 04. Spotify 에서 artists , album 정보 가져오기

현재 진행하고 있는 프로젝트는 페스트 캠퍼스에서 듣고 있는 인강인 한승수 강사님의 데이터 엔지니어링 강의를 다시한번 복습하고 내재화하고자 진행하는 프로젝트인 점 참고바란다. 이 프로젝트에서의 수집해야되는 정보를 가져오기 위한 코드를 만들었다. 이번 프로젝트에서의 가상의 목표는 spotify의 api 를 활용하여 간단한 챗봇 서비스를 만들어 보는 것이므로, artists 정보, album 등 우리가 spotify 라는 음원 서비스를 이용하면서 많이 찾는 정보를 우선 수집하고자 한다. 특히 이중에서 artist 와 ablum 정보는 전 세계 모든 아티스트들이 공통적으로 생성하는 정보이며, spotify 서비스를 이용하는 유저들이 가장 많이 참고하는 데이터이기에 위 데이터를 먼저 수집하는 것이 좋겠다는 판단 ..

프로젝트 주의 사항3: cloudera 설치 후 발생할 수 있는 문제들 정리1 : DNS 문제, 구성(메모리 할당) 문제

클라우데라의 문제는 색깔 기준으로 2개로 섹션이 나뉜다. 우선 구성에 들어가 해결할 수 있는 문제들을 해결한다. 1. 빨간색(모든 상태 문제) - DNS 문제(DNS 관련 문제 가 있다고 계속 뜸) allias 로 기입을 했지만, allias 를 통한 노드 이름을 식별하지 못하는 것이기 때문에 나타나는 문제이다 이럴때는 putty 로 연결되어 있는 노드들에 들어가 노드의 이름을 allias 에서 본래 이름으로 바꾸어 준다. 그 이후에, cloudera-scm-agent / server / server-db 등을 다시 시작해 준다음에 재 로그인해주면 된다. 참고로, ssh 를 써주면 node1 에서 node2로 잠시 접속을 갈아타 일일히 가상환경을 키지 않아도 노드들의 이름을 바꾸어 줄 수가 있으므로 편하..

반응형