반응형

데이터 엔지니어링 프로젝트 및 인강/3. Spotify Project 7

Spotify Project 07. Spotify - 분석 파이프라인 구축(프로젝트 완료)

약 1달 반정도의 사이드 프로젝트를 마치고자 한다. 우선, 프로젝트를 시작하기에 앞서 구상했던 파이프라인이다. 우선 spotify 의 데이터를 가져오는 데이터 파이프라인을 구현하기에 앞서 위의 파이프라인을 구상했다. 구상할 때 고려했던 조건은 1가지이다. 1. 데이터의 특성을 고려한 DB 선정 처음에 가져오려했던 artists, genres 데이터의 경우에는 필요한 데이터만 저장을 하고 사용할 데이터이다. 즉, 확장을 하더라도 컬럼이 늘어나는 것이 아닌 artists 와 genres 이 두개의 그룹에 속하는 rows 만 증가하는 것이기 때문에 데이터 량의 증가에 있어서 충분히 대응할 수 있는 RDBS 의 MySQL 을 선택했다. 그 다음은 DynamoDB 선택한 이유인데, 해당 DB 의 경우 NoSQL ..

Spotify Project 06. Spotify - AWS Data 수집 프로세스 구축 2

현재 진행하고 있는 프로젝트는 페스트 캠퍼스에서 듣고 있는 인강인 한승수 강사님의 데이터 엔지니어링 강의를 다시한번 복습하고 내재화하고자 진행하는 프로젝트인 점 참고바란다. 이번에는 저번에 이어서 S3 에 데이터를 저장함으로써 ' 데이터 레이크 ' 를 만들었다. S3 는 Simple Storage Service 의 약자로써 개발자가 원하는 양의 데이터를 쉽게 저장하고 검색할 수 있도록 도와주는 서비스이며, 심플한 웹 인터페이스를 통하여 어디서든 스토리지에 엑세스 할 수 있다는 장점이 있다. https://docs.aws.amazon.com/ko_kr/AmazonS3/latest/dev/Welcome.html Amazon S3이란 무엇입니까? - Amazon Simple Storage Service Ama..

Spotify Project 05. Spotify - AWS Data 수집 프로세스 구축

현재 진행하고 있는 프로젝트는 페스트 캠퍼스에서 듣고 있는 인강인 한승수 강사님의 데이터 엔지니어링 강의를 다시한번 복습하고 내재화하고자 진행하는 프로젝트인 점 참고바란다. 서비스를 만들기에 앞어 가장 중요한 것은 - 어떤 데이터가 필요한 것인지? - 데이터들을 어떻게 수집할 것인지? ( API 형태? 로그 데이터? 등) - 데이터들을 어떻게 저장할 것인지? 이 3가지인 것 같다. 이번에는 데이터를 어떻게 저장할 것인지에 대하여 고민을 하고 이를 구현한 과정에 대해서 기록한다.. 우선, 데이터를 수집하고 저장하고자하는 프로세스는 아래와 같다. (한승수 강사님의 강의를 복습하여 엔지니어링 프로세스를 내재화 시키는 사이드 프로젝트이기 때문에 전반적인 프로세스는 강의 내용과 비슷한 점은 참고 바란다) 이번 사..

Spotify Project 04. Spotify 에서 artists , album 정보 가져오기

현재 진행하고 있는 프로젝트는 페스트 캠퍼스에서 듣고 있는 인강인 한승수 강사님의 데이터 엔지니어링 강의를 다시한번 복습하고 내재화하고자 진행하는 프로젝트인 점 참고바란다. 이 프로젝트에서의 수집해야되는 정보를 가져오기 위한 코드를 만들었다. 이번 프로젝트에서의 가상의 목표는 spotify의 api 를 활용하여 간단한 챗봇 서비스를 만들어 보는 것이므로, artists 정보, album 등 우리가 spotify 라는 음원 서비스를 이용하면서 많이 찾는 정보를 우선 수집하고자 한다. 특히 이중에서 artist 와 ablum 정보는 전 세계 모든 아티스트들이 공통적으로 생성하는 정보이며, spotify 서비스를 이용하는 유저들이 가장 많이 참고하는 데이터이기에 위 데이터를 먼저 수집하는 것이 좋겠다는 판단 ..

Spotify Project 03. 프로젝트 진행위한 API 관련 사항

현재 진행하고 있는 프로젝트는 페스트 캠퍼스에서 듣고 있는 인강인 한승수 강사님의 데이터 엔지니어링 강의를 다시한번 복습하고 내재화하고자 진행하는 프로젝트인 점 참고바란다. Spotify 프로젝트는 rest API 를 통해서 웹사이트에서 내가 Spotify 에서 필요한 정보를 가져오는 방식이다. Spotify 에서 api 를 가져오는 방식으로는 GET 방식이 많이 사용되는데, GET 방식 말고도 API 와 통신을 하는 Method 가 몇가지 더 있어 사전 숙지 및 추후에도 공부하기 위해 여기에 기록한다. Method 내용 GET 해당 리소스를 조회하고 정보를 가져온다 HEAD GET 방식과 동일하나 응답코드와 HEAD 만 가져온다 POST 요청된 리소스를 생성한다 PUT 요청된 리소스를 업데이트 한다 D..

Spotify Project 02. aws 사용하기에 앞서 설정해두어야 할 것(aws cli)

aws 를 사용하기에 앞서 나의 컴퓨터에서 바로 aws 와 통신하여 나의 컴퓨터에서 바로 aws 에 연결될 수 있게 설정해주는 작업을 해야하는데, 그 작업을 위해 aws cli 가 필요하다. ** 아래 과정을 진행하기 위해서는 python이 설치되어 있어야만 한다 ** anaconda 파이썬을 설치할 경우에는 아래 과정이 진행되지 않으므로 오리지널 파이썬을 설치한 상태해서 아래 과정을 진행하는 것이 좋다. (나는 python 3.7 을 설치했다) 1. aws cli 를 인스톨 한다. 윈도우 10에서 진행을 했기 때문에 powershell 을 사용하여 프로젝트를 위해 사용하는 경로에서 바로 접속할 수 있게 인스톨 했다. > pip install awscli --upgrade --user https://do..

Spotify Project 01. 이번 프로젝트의 목표

프로젝트 목표 인강에서 배운 프로세스를 바탕으로 직접 데이터 파이프라인을 설계 구축해본다. AWS 클라우드 서비스를 활용하여 Severless 프레임 워크에 대해서 이해한다. 사용할 API Spotify developer api https://developer.spotify.com/dashboard/applications My Dashboard | Spotify for Developers Create and manage Spotify Applications to use the Spotify Web API. Obtain credentials to authenticate with Spotify and fetch metadata. developer.spotify.com api 에 대한 이해 spotify 는 ..

반응형