반응형

데이터 엔지니어링 프로젝트 및 인강 28

MLOps 란 무엇일까?

MLOps - ml 프로젝트 개발 프로세스에서도 모든 업무들에 자동화가 필요하다는 의견이 나옴 - 데브옵스 방법론을 결합하자는 아이디어가 나옴 > 버전관리 : 데이터 버전관리, 모델 버전 관리 > 테스트 자동화 : 모델 학습 자동화, 모델 성능 평가 자동화 > 모니터링 : 서빙 모델 모니터링, 데이터 변화 모니터링, 시스템 안정성 모니터링 ai 서비스와 sw 의 차이점 - 소프트웨어, ml 기반 ai 서비스에 가장 큰 차이점은 데이터의 유무가 가장 중요함 - 데이터의 중요성이 대두되고 있음 - 데이터의 차이점이 ml 관련 서비스 전반에 영향을 줌, 데브옵스와는 비슷하면서도 다름 - 엠엘옵스는 데브옵스 및 다른 분야에 비해 생소한 분야 ml 옵스의 정의 - 구글 : 엠엘 옵스는 시스템 개발과 시스템 운영을..

챕터1. MLOps 란?

1. 기존 ml 프로젝트 진행방식의 한계 - validataion dataset 에서는 성능이 좋았던 모델이 배포때 test datsset 에서는 성능이 나쁠 수 있음 - 그럴 경우, n 번째 모델들을 배포하고 싶고, 성능이 좋았던 모델들을 참고하고 싶은 경우가 있다 - 체계적으로 모델, 데이터를 관리하지 않았다면, 성능이 안좋은 원인을 파악하기 어렵고 과거 모델을 재현하기 어려운 상황 발생 - 이럴경우 처음부터 다시 시작해야되는 문제가 발생할 수 있음 2. 실무에서겪을 수 있는 문제 1) 서로 다른 가상환경에서 개발한다면? 2) 하나의 컴퓨터, 서버를 공유해야 한다면 --> 1), 2) 의 이야기는 대다수의 기업에서 겪는 일이다. 3. 성공적인 ML 프로젝트를 위해서는? - 단순히 좋은 모델만 사용하는..

4주차 기록( 4 ) - 데이터 엔지니어의 기본자세 / ETL / AIRFLOW 설명

1. 질문 문답 1) 커리어를 계속해서 발전시키고 싶다면?(1) 건강한 몸과 마음이 중요 어떤 기술을 아느냐가 아닌 결과를 내는데 초점 내가 하는 일에 결과를 내는데 필요한 기술의 배움에 초점 1) 커리어를 계속해서 발전시키고 싶다면?(2) 요즘 세상의 전문성이란? 변화를 두려워하지 않는 마인드셋이다. 자신감을 갖고 나에게 무슨일이 주어거나, 하고싶은 일이 있으면 나는 그것을 할 수 있다 라는 자신감을 가진다.. 이는 작은일이라도 결과물을 내면서 키워지게 되어 있다. 전문성이란 변화를 두려워하지 않고 도전하는 마인드셋 한방에 끝내려고 하지 않기. 한방에 끝내지 말고 어디서 시작하던 언제든지 배우고 멈춘거 같으면 그것을 타계할 방법 찾아보기, 더 배울 수 있는 곳으로 갈것인가, 아니면 새로운 것을 시작할것..

2주차 기록( 2 ) - 수업에 사용될 RedShit / RDB 에 대한 간단한 정리

1. redshift 소개 1) dw 는 무엇인가 기본적으로 sql 이 기반이 된다. 맵리듀스가 나왓어도 sql 기반의 데이터 처리의 중요성은 없어지지 않았다. 데이터 베이스 시스템은 50년 이상되엇고 굉장히 성숙해잇음, 하지만 맵리듀스는 짧은데다 굉장히 복잡하고 문제 해결 능력이 떨어지니 그 위에 데이터 베이스 시스템을 구현한 것이 하이브 맵 리듀스가 진화한 것이 스파크 이며 동시에 여러가지 기능을 실행가능한다. 구조화된 데이터 처리에 있어서 sql 만한 것이 없다. OLAP : 내부에서 데이터 처리를 위한 DB OLTP : 외부에서 데이터 처리를 위한 프로적션 DB 2) scalable sql engine in aws 모든 db 은 pk 를 지정할수 있는데 반해, dw 는 이를 보정안해줌 왜냐하면 이..

2주차 기록( 1 ) - 데이터 엔지니어의 일주일

데이터 엔지니어의 일주일에 대해서 배웠다. 이렇게 흘러간다! 는 아니지만, 대략 데이터 엔지니어가 어떻게 일을 하는지 알 수 있었으며, 내가 앞으로 일을 함에 있어서 어떻게 적용하면 좋은지 고민해 볼 수 있었던 유용한 시간이었다. 1. 데이터엔지니어의 일주일 보기 1) Sprint 데모 미팅 2주동안 무슨일을 할것인지 계획을 세움 ( 2주라는 기간이 절대적인 것은 아니다 ) 지난 2주 동안 무슨 일을 했는지 점검하는 시간을 갖음 과업을 진행하거나 달성함에 있어서 어떤 점이 부족했는지 점검 2) Sprint 회고 데모 미팅과 비슷하게 어떤 일을 했는지 서로 공유 이 과정에서 어떤 점이 부족했고 어떻게 보완해야되는지 체크 3) Sprint 플래닝 시 주의사항 40% 의 시간은 인프라 코드의 리펙토링에 사용 ..

1주차 기록 - 데이터팀의 역할에 대하여 summary

위 강좌를 듣고 추후에는 개별적으로 데이터 파이프라인과 연관된 대시보드를 만들고자 한다. 그에 앞서 강좌의 내용들을 정리할 예정이다 1. 데이터팀의 역할 1) 데이터 조직의 목표 데이터를 내부 데이터 베이스에 저장 ( 프로덕션 데이터베이스) 외/내부 데이터를 수집해서 한군데에 저장(데이터 웨어하우스), 프로덕선 db 와 별도의 db 를 사용 데이터를 추출하여 원하는 형태로 변형 후 데이터 웨어하우스에 적재 하는 작업을 etl 작업이라 불린다 2) 데이터 엔지니어의 업무 외부의 데이터를 추출하여 원하는 형태로 변형하여 dw 에 적재하는 작업을 하는 인원을 데이터 엔지니어라고 부른다. 데이터 분석용 dw 를 만들고 관리하는 것이 데이터 엔지니어의 첫번째 업무 dw 에 실제로 데이터를 적재하는 etl 업무를 ..

Spotify Project 07. Spotify - 분석 파이프라인 구축(프로젝트 완료)

약 1달 반정도의 사이드 프로젝트를 마치고자 한다. 우선, 프로젝트를 시작하기에 앞서 구상했던 파이프라인이다. 우선 spotify 의 데이터를 가져오는 데이터 파이프라인을 구현하기에 앞서 위의 파이프라인을 구상했다. 구상할 때 고려했던 조건은 1가지이다. 1. 데이터의 특성을 고려한 DB 선정 처음에 가져오려했던 artists, genres 데이터의 경우에는 필요한 데이터만 저장을 하고 사용할 데이터이다. 즉, 확장을 하더라도 컬럼이 늘어나는 것이 아닌 artists 와 genres 이 두개의 그룹에 속하는 rows 만 증가하는 것이기 때문에 데이터 량의 증가에 있어서 충분히 대응할 수 있는 RDBS 의 MySQL 을 선택했다. 그 다음은 DynamoDB 선택한 이유인데, 해당 DB 의 경우 NoSQL ..

Spotify Project 06. Spotify - AWS Data 수집 프로세스 구축 2

현재 진행하고 있는 프로젝트는 페스트 캠퍼스에서 듣고 있는 인강인 한승수 강사님의 데이터 엔지니어링 강의를 다시한번 복습하고 내재화하고자 진행하는 프로젝트인 점 참고바란다. 이번에는 저번에 이어서 S3 에 데이터를 저장함으로써 ' 데이터 레이크 ' 를 만들었다. S3 는 Simple Storage Service 의 약자로써 개발자가 원하는 양의 데이터를 쉽게 저장하고 검색할 수 있도록 도와주는 서비스이며, 심플한 웹 인터페이스를 통하여 어디서든 스토리지에 엑세스 할 수 있다는 장점이 있다. https://docs.aws.amazon.com/ko_kr/AmazonS3/latest/dev/Welcome.html Amazon S3이란 무엇입니까? - Amazon Simple Storage Service Ama..

Spotify Project 05. Spotify - AWS Data 수집 프로세스 구축

현재 진행하고 있는 프로젝트는 페스트 캠퍼스에서 듣고 있는 인강인 한승수 강사님의 데이터 엔지니어링 강의를 다시한번 복습하고 내재화하고자 진행하는 프로젝트인 점 참고바란다. 서비스를 만들기에 앞어 가장 중요한 것은 - 어떤 데이터가 필요한 것인지? - 데이터들을 어떻게 수집할 것인지? ( API 형태? 로그 데이터? 등) - 데이터들을 어떻게 저장할 것인지? 이 3가지인 것 같다. 이번에는 데이터를 어떻게 저장할 것인지에 대하여 고민을 하고 이를 구현한 과정에 대해서 기록한다.. 우선, 데이터를 수집하고 저장하고자하는 프로세스는 아래와 같다. (한승수 강사님의 강의를 복습하여 엔지니어링 프로세스를 내재화 시키는 사이드 프로젝트이기 때문에 전반적인 프로세스는 강의 내용과 비슷한 점은 참고 바란다) 이번 사..

Spotify Project 04. Spotify 에서 artists , album 정보 가져오기

현재 진행하고 있는 프로젝트는 페스트 캠퍼스에서 듣고 있는 인강인 한승수 강사님의 데이터 엔지니어링 강의를 다시한번 복습하고 내재화하고자 진행하는 프로젝트인 점 참고바란다. 이 프로젝트에서의 수집해야되는 정보를 가져오기 위한 코드를 만들었다. 이번 프로젝트에서의 가상의 목표는 spotify의 api 를 활용하여 간단한 챗봇 서비스를 만들어 보는 것이므로, artists 정보, album 등 우리가 spotify 라는 음원 서비스를 이용하면서 많이 찾는 정보를 우선 수집하고자 한다. 특히 이중에서 artist 와 ablum 정보는 전 세계 모든 아티스트들이 공통적으로 생성하는 정보이며, spotify 서비스를 이용하는 유저들이 가장 많이 참고하는 데이터이기에 위 데이터를 먼저 수집하는 것이 좋겠다는 판단 ..

반응형