데이터 엔지니어링 프로젝트 및 인강/4. 데이터 엔지니어링 스타터 키트 Project

2주차 기록( 1 ) - 데이터 엔지니어의 일주일

쟈누이 2021. 11. 19. 09:22
반응형

 

데이터 엔지니어의 일주일에 대해서 배웠다.

이렇게 흘러간다! 는 아니지만, 대략 데이터 엔지니어가 어떻게 일을 하는지 알 수 있었으며,

내가 앞으로 일을 함에 있어서 어떻게 적용하면 좋은지 고민해 볼 수 있었던 유용한 시간이었다.

 

 

 

1. 데이터엔지니어의 일주일 보기


1) Sprint 데모 미팅

  • 2주동안 무슨일을 할것인지 계획을 세움 ( 2주라는 기간이 절대적인 것은 아니다 )
  • 지난 2주 동안 무슨 일을 했는지 점검하는 시간을 갖음
  • 과업을 진행하거나 달성함에 있어서 어떤 점이 부족했는지 점검


2) Sprint 회고

  • 데모 미팅과 비슷하게 어떤 일을 했는지 서로 공유
  • 이 과정에서 어떤 점이 부족했고 어떻게 보완해야되는지 체크

 

3) Sprint 플래닝 시 주의사항

  • 40% 의 시간은 인프라 코드의 리펙토링에 사용 (데이터가 빠르게 축적되는 회사라는 가정)
  • 미팅 제외 하루 5시간 일한다고 가정
  • 정리하자면, 60%는 새로운 기능 구현, 기존 프로젝트 진행 / 40% 는 기존의 코드 리펙토링에 사용
  • on-call 엔지니어 지정 - 데이터 이슈 해결하는 엔지니어 지정하여 효율적으로 업무가 돌아갈 수 있도록 한다.

 

 

위와 같은 방법을 사용하여 

추후 회사에서 업무를 함에 있어 적용해도 좋을 것 같았다. 

아니, 적용이 필요하겠다

 

 

 

2. 2주차 질문 모음


1) 데이터 엔지니어링과관련된 기술스텍을 공부하고싶다

  • sql 이 기본
  • 파이썬 코딩이 중요
  • airflow 같은 etl 프레임워크를 이해하는 것이 중요
  • spark 와 같은 분산처리 환경에서 큰 데이터를 processing 할수 있는지

 

2) 라운드 기반 서비스보다 온프레미스에서 구축하는 것이 더 유리한 경우가 있을까요?

  • 보안이 중요한 데이터의 경우에는 온프레미스
  • 엔지니어의 능력이 좋을 경우에는 필요에 따라 온프레미스를 토대로 오토 스케일링을 잘 구현할 수 있음  (넷플릭스는 능력이 좋은 엔지니어들만 채용하기때문에 그들이 필요에 따라 자체적으로 서버를 구축하기도 함)

 

3. 카프카와 같이 실시간 스트리밍을 통해서 데이터를 다루는 부분은 어떠한 상황에서 자주 사용하는지 궁금

  • 초반에는 배치이기 때문에 중요하지 않지만, 고도화를 통하여 실시간 수집이 중요해질 경우에는 카프카를 사용

 

4. 이미 데이터 플랫폼이 구축된 회사인데, 컴포넌트 하나하나를 파악하기가 어려움. 어떻게 파악해가는게 좋을까?

  • 이슈가 있을 때 기록, follow-up 하고 그걸을 해결해보는 것이 가장 빨리 배울 수 있는 방법

 

5. 현재 개발중인 서비스를 웹에 올릴 예정입니다. 유입 체크를 위한 세션 테이블을 만든다고 가정을 해볼 때,

구글, 페이스북 등 특정 사이트를 통해서 유입이 되었는지를 체크하기 위해서는 구글, 페이스북 등에서 제공하는 api 들을 사용하여 따로 연동하는 작업을 해주는 것인가요? 아니면 다른 방법이 있는지 궁금합니다.

  • 이론적으로는 http refer 를 보면 알수 있지만 일반적으로는 구글 어낼러틱스를 웹, 모바일에 설치를 하고 구글 에널리틱스를 통해서 채널 어트리뷰선 정보를 따로 받는다. 이게 가장 일반적으로 많이 사용하는 방식이며,
  • 특정 프로그램이나 라이브러리 등을 따로 연동하지 않고 구글 애널리틱스와 같은 툴을 웹, 모바일웹에 별도로 설치하고 안내사항을 따르며 작업을 진행한다. 

 

 

3. 강좌 링크


만약 강좌 내용이 궁금하면 아래 링크를 타고 들어가면 된다

 

https://programmers.co.kr/learn/courses/12916

 

반응형