Book/빅데이터를 지탱하는 기술

빅데이터 기초지식 1 - 1. 빅데이터의 장착

쟈누이 2020. 6. 13. 14:56
반응형

 

데이터 엔지니어링 공부의 일환으로 빅데이터를 지탱하는 기술을 시작으로 여러가지

데이터 엔지니어, 분석과 관련된 책을 공부하고자 한다. 

 

0. Note 빅데이터의 주요 역사

- 2011년 까지 : Hadoop 이나 NoSQL 데이터베이스 등 기반 기술의 발전

- 2012년 까지 : 클라우드 방식의 데이터 웨어하우스나 BI 도구의 보급

- 2013년 부터 : 스트림 처리나 애드혹(AdHoc) 분석 환경의 확충

 

1. 빅데이터 취급의 어려움

- 대량의 데이터 처리에 많은 수고와 시간 소요

- 데이터의 처리에 기술적 제약이 존재했음

 

2. 분산 처리 시스템에 의한 데이터 처리 고속화

- 빅데이터 취급의 어려운 점 극복(대량의 데이터를 한꺼번에 처리하는 것)

- 대량의 데이터 활용, 가치 창출 및 의사결정 보편화

- 기술 제약이 적어짐

 

3. 빅데이터 처리 기술의 등장

1) 하둡

- 다수의 컴퓨터에서 대량의 데이터 처리 가능

- 집계 및 분석을 위한 프로그래밍이 필요한 단점

- 하이브의 추가 : 프로그래밍 필요없이 데이터 집계 분석 가능(사용자 확대의 계기)

 

2) NoSQL

- 빈번한 읽기 / 쓰기 및 분산처리가 강점

- RDB의 제약 극복

- 고속의 읽기, 쓰기 , 분산처리 장점

종류

키 밸류 스토어(key-value store) 다수의 키와 값을 관련지어 저장
도큐먼트 스토어(document store) json과 같은 복잡한 데이터 구조를 저장
와이드 칼럼 스토어(wide-column store) 여러 키를 사용하여 높은 확장성 제공

4. 하둡과 NoSQL DB 의 조합

- NoSQL DB 저장, hadoop 분석 프로세스의 정착

RDB --> NoSQL 변경

5. 분산 시스템의 비즈니스 이용 개척

- 시간이 지남에 따라, 점차 하둡의 대중화로 이어짐

- 다수의 분석 도구가 하둡 연계 지원

- 대량의 데이터 보존, 집계 위한 하둡의 사용

- 하둡의 뛰어난 확장성은 기존 DW 의 부하 커버

6. 클라우드 서비스의 보급

- 하둡, DW는 셋팅에 많은 비용과 시간이 들며, 어렵고, 장소 제약이 있음

- 클라우드는 노트북만 있으면 쉽게 셋팅 가능

 

7. 직접 할 수 있는 데이터 분석 폭 확대

- 빅데이터의 저장, 활용에 대한 시간, 공간, 기술적 제약의 완화

- tableau, 구글 데이터 스튜디오 등 셀프 서비스용 데이터 시각화 BI 서비스의 등장

https://www.finereport.com/kr/10-data-visualization-tools-open-sourse-that-you-cannot-miss-in-2020/

 

2020년 오픈 소스 데이터 시각화 툴 TOP 10

데이터 시각화 툴은 데이터를 보는 방법을 바꿀 뿐만 아니라, 빠르고 효과적인 의사결정을 내리는 데도 결정적인 역할을 합니다. 무료로 사용가능한 오픈소스 데이터 시각화 툴 리스트를 알아��

www.finereport.com

 

반응형