반응형
1. redshift 소개
1) dw 는 무엇인가
- 기본적으로 sql 이 기반이 된다.
- 맵리듀스가 나왓어도 sql 기반의 데이터 처리의 중요성은 없어지지 않았다.
- 데이터 베이스 시스템은 50년 이상되엇고 굉장히 성숙해잇음, 하지만 맵리듀스는 짧은데다 굉장히 복잡하고 문제 해결
- 능력이 떨어지니 그 위에 데이터 베이스 시스템을 구현한 것이 하이브
- 맵 리듀스가 진화한 것이 스파크 이며 동시에 여러가지 기능을 실행가능한다.
- 구조화된 데이터 처리에 있어서 sql 만한 것이 없다.
- OLAP : 내부에서 데이터 처리를 위한 DB
- OLTP : 외부에서 데이터 처리를 위한 프로적션 DB
2) scalable sql engine in aws
- 모든 db 은 pk 를 지정할수 있는데 반해, dw 는 이를 보정안해줌 왜냐하면 이를 보정하는 순간 속도가 안나옴
3) Redshift is Postgresql 8.x compatible
- postgre 에서 시작되었기 때문에 쿼리가 이와 무척 유사
4) redshift options and pricing
- 고정비용 옵션 : dense storage, dense conpute
- 가변비용 옵션 : managed storage(50명 정도가 사용하기 편함)
5) Redshift Optimization can be tricky
- 다수의 서버로 구성될 때 테이블을 어떻게 분살시킬지를 개발자가 지정해야함
- snowflake 보다는 scalable 한 면에 있어서 좋지 않다는 단점
6) Tightly Coupled with other AWS Services
- aws 의 여러 서비스와 연동 가능
3. 관계형 데이터베이스
- rdb 를 사용할 때는 row 데이터 를 저장한 곳 가공데이터를 저장한 곳을 구분하 놓아야 한다
- 그리고 특정 테이블을 사용하게끔 지정을 해놓아야 한다
- 그러지 않을 경우 row 데이터를 마음대로 가져다 쓰기 때문에 관리가 제대로 되지 않는다.
- 중요한 테이블이 무엇이며 어디에 저장되어있는지를 파악하고 이 테이블을 관리하는 것이 중요하다.
반응형
'데이터 엔지니어링 프로젝트 및 인강 > 4. 데이터 엔지니어링 스타터 키트 Project' 카테고리의 다른 글
4주차 기록( 4 ) - 데이터 엔지니어의 기본자세 / ETL / AIRFLOW 설명 (0) | 2021.12.01 |
---|---|
2주차 기록( 1 ) - 데이터 엔지니어의 일주일 (0) | 2021.11.19 |
1주차 기록 - 데이터팀의 역할에 대하여 summary (0) | 2021.11.16 |