데이터 엔지니어링 공부의 일환으로 빅데이터를 지탱하는 기술을 시작으로 여러가지
데이터 엔지니어, 분석과 관련된 책을 공부하고자 한다.
0. Note 빅데이터의 주요 역사
- 2011년 까지 : Hadoop 이나 NoSQL 데이터베이스 등 기반 기술의 발전
- 2012년 까지 : 클라우드 방식의 데이터 웨어하우스나 BI 도구의 보급
- 2013년 부터 : 스트림 처리나 애드혹(AdHoc) 분석 환경의 확충
1. 빅데이터 취급의 어려움
- 대량의 데이터 처리에 많은 수고와 시간 소요
- 데이터의 처리에 기술적 제약이 존재했음
2. 분산 처리 시스템에 의한 데이터 처리 고속화
- 빅데이터 취급의 어려운 점 극복(대량의 데이터를 한꺼번에 처리하는 것)
- 대량의 데이터 활용, 가치 창출 및 의사결정 보편화
- 기술 제약이 적어짐
3. 빅데이터 처리 기술의 등장
1) 하둡
- 다수의 컴퓨터에서 대량의 데이터 처리 가능
- 집계 및 분석을 위한 프로그래밍이 필요한 단점
- 하이브의 추가 : 프로그래밍 필요없이 데이터 집계 분석 가능(사용자 확대의 계기)
2) NoSQL
- 빈번한 읽기 / 쓰기 및 분산처리가 강점
- RDB의 제약 극복
- 고속의 읽기, 쓰기 , 분산처리 장점
종류
키 밸류 스토어(key-value store) | 다수의 키와 값을 관련지어 저장 |
도큐먼트 스토어(document store) | json과 같은 복잡한 데이터 구조를 저장 |
와이드 칼럼 스토어(wide-column store) | 여러 키를 사용하여 높은 확장성 제공 |
4. 하둡과 NoSQL DB 의 조합
- NoSQL DB 저장, hadoop 분석 프로세스의 정착
5. 분산 시스템의 비즈니스 이용 개척
- 시간이 지남에 따라, 점차 하둡의 대중화로 이어짐
- 다수의 분석 도구가 하둡 연계 지원
- 대량의 데이터 보존, 집계 위한 하둡의 사용
- 하둡의 뛰어난 확장성은 기존 DW 의 부하 커버
6. 클라우드 서비스의 보급
- 하둡, DW는 셋팅에 많은 비용과 시간이 들며, 어렵고, 장소 제약이 있음
- 클라우드는 노트북만 있으면 쉽게 셋팅 가능
7. 직접 할 수 있는 데이터 분석 폭 확대
- 빅데이터의 저장, 활용에 대한 시간, 공간, 기술적 제약의 완화
- tableau, 구글 데이터 스튜디오 등 셀프 서비스용 데이터 시각화 BI 서비스의 등장
https://www.finereport.com/kr/10-data-visualization-tools-open-sourse-that-you-cannot-miss-in-2020/
'Book > 빅데이터를 지탱하는 기술' 카테고리의 다른 글
빅데이터의 탐색 2 - 3. 애드 혹 분석과 시각화 도구 (2) | 2020.06.23 |
---|---|
빅데이터의 탐색 2 - 2. 열 지향 스토리지에 의한 고속화 (0) | 2020.06.21 |
빅데이터 기초지식 1 - 3. BI 도구와 모니터링 (0) | 2020.06.19 |
빅데이터 기초지식 1 - 2. 빅데이터 시대의 데이터 분석 기반 ( 2) (0) | 2020.06.17 |
빅데이터 기초지식 1 - 2. 빅데이터 시대의 데이터 분석 기반 ( 1 ) (0) | 2020.06.14 |