데이터 엔지니어링 프로젝트 및 인강/4. 데이터 엔지니어링 스타터 키트 Project

2주차 기록( 2 ) - 수업에 사용될 RedShit / RDB 에 대한 간단한 정리

쟈누이 2021. 11. 19. 09:43
반응형

 

 

1. redshift 소개


1) dw 는 무엇인가

  • 기본적으로 sql 이 기반이 된다.
  • 맵리듀스가 나왓어도 sql 기반의 데이터 처리의 중요성은 없어지지 않았다.
  • 데이터 베이스 시스템은 50년 이상되엇고 굉장히 성숙해잇음, 하지만 맵리듀스는 짧은데다 굉장히 복잡하고 문제 해결
  • 능력이 떨어지니 그 위에 데이터 베이스 시스템을 구현한 것이 하이브
  • 맵 리듀스가 진화한 것이 스파크 이며 동시에 여러가지 기능을 실행가능한다.
  • 구조화된 데이터 처리에 있어서 sql 만한 것이 없다.

 

  • OLAP : 내부에서 데이터 처리를 위한 DB
  • OLTP : 외부에서 데이터 처리를 위한 프로적션 DB



2) scalable sql engine in aws

  • 모든 db 은 pk 를 지정할수 있는데 반해, dw 는 이를 보정안해줌 왜냐하면 이를 보정하는 순간 속도가 안나옴

 

3) Redshift is Postgresql 8.x compatible

  • postgre 에서 시작되었기 때문에 쿼리가 이와 무척 유사

 

4) redshift options and pricing

강좌 이미지 발췌

  • 고정비용 옵션 : dense storage, dense conpute
  • 가변비용 옵션 :  managed storage(50명 정도가 사용하기 편함)

 

5) Redshift Optimization can be tricky

  • 다수의 서버로 구성될 때 테이블을 어떻게 분살시킬지를 개발자가 지정해야함
  • snowflake 보다는 scalable 한 면에 있어서 좋지 않다는 단점

 

6) Tightly Coupled with other AWS Services

  • aws 의 여러 서비스와 연동 가능



 

3. 관계형 데이터베이스 


  • rdb 를 사용할 때는 row 데이터 를 저장한 곳 가공데이터를 저장한 곳을 구분하 놓아야 한다
  • 그리고 특정 테이블을 사용하게끔 지정을 해놓아야 한다
  • 그러지 않을 경우 row 데이터를 마음대로 가져다 쓰기 때문에 관리가 제대로 되지 않는다.
  • 중요한 테이블이 무엇이며 어디에 저장되어있는지를 파악하고 이 테이블을 관리하는 것이 중요하다. 
반응형