Book/빅데이터를 지탱하는 기술

빅데이터의 탐색 2 - 3. 애드 혹 분석과 시각화 도구

쟈누이 2020. 6. 23. 14:19
반응형

- 데이터를 시각화하기 위한 소프트웨어는 여러가지 종류가 있다

 

1. Jupyter Notebook에 의한 애드 혹 분석

- 노트북에 분석 과정 기록하기

 

노트북 안에서는 파이썬 스크립트와 외부 명령어를 실행할 수 있으며, 실행 내용은 모두

기록되고 과거로 돌아가서 편집하거나 재실행할 수도 있다.

 

- 마크다운 형식으로 주석을 넣어 모양을 좋게 하거나, 사진 또는 수식을 포함할 수 있다.

- 스프레드 시트, BI 도구 없이 크로스 집계결과를 시각화가 가능하다.

 

1) Matplotlib (노트북 내에서의 시각화)

- 과학 기술 계산 분야에서 사용되는 시각화 라이브러리 중 하나

- 복잡한 그래프를 파이썬을 사용하여 생성

- 프로그래밍이 필요하여 시간이 걸리는 단점 존재, 분석과정에서 유사항 그래프를 다시 만들 때 유용

 

2. 대시보드 도구

- 정기적으로 집계 결과 시각화 하기

- BI 도구에 비하여 데이터 탐색이 중요시되는 점을 보임

- 정해진 지표의 일상적인 변화를 모니터링하고 싶은 경우 사용

- 대표적인 예시로는 Redash, Superset 그리고 Kibana 등이 해당된다.

 

1) Redash

장점

- SQL에 의한 쿼리의 실행 결과를 그대로 시가고하하는 데 적합

- 대시보드가 직관적이며, 하나의 쿼리가 하나 또는 여러

 

단점

- BI 도구만큼 대량의 데이터 처리 불가

- 적은 수의 행과 열만 레코드에 반환됨

- 대시보드가 증가함에 따라 백엔드 DB의 부하가 높아지는 단점이 있다. 

https://redash.io/

 

Redash helps you make sense of your data

Use Redash to connect to any data source (PostgreSQL, MySQL, Redshift, BigQuery, MongoDB and many others), query, visualize and share your data to make your company data driven.

redash.io

2) Superset

장점

- 화면상에서 마우스 조작만으로 그래프를 만들 수 있음

- 대화형 대시보드를 작성하기 위해 파이써능로 만든 웹 애플리케이션

- 마우스 조작만으로 그래프를 만들 수 있음

- 내장 스토리지 시스템이 없어서, 데이터 집계는 외부 데이터 저장소에 의지

- 시계열 데이터에 대응한 열 지향 스토리지인 Druid 를 표준으로 지원

- 스트리밍 형 데이터 전송과 조합시켜 실시간 정보를 취급할 수 있음

 

단점

- 시각화를 위한 데이터 마트를 먼저 만들어야 함

- 집계 전 시가고하에 필요한 데이터는 미리 모두 결합해 두어야 함

https://superset.incubator.apache.org/index.html

 

Apache Superset (incubating) — Apache Superset documentation

Apache Superset (incubating) is a modern, enterprise-ready business intelligence web application Important Disclaimer: Apache Superset is an effort undergoing incubation at The Apache Software Foundation (ASF), sponsored by the Apache Incubator. Incubation

superset.incubator.apache.org

3) Kibana

- 엘라스틱 서치의 프론트 엔드에서 실시간으로 작성

- 자바 스크립트로 만들어진 대화형 시각화 도구로서 실시간 대시보드를 만들 목적으로 이용

- 엘라스틱 서치의 프런트 엔드로 개발되었기 때문에 도입에는 엘라스틱 서치가 필수

- 시가고하하려는 데이터는 모두 엘라스틱서치에 저장해야 됨.

https://www.elastic.co/kr/kibana

 

Kibana: 데이터 탐색, 시각화, 발견 | Elastic

Kibana를 처음 사용하시나요? 여기에 Kibana를 시작하기 위해 알아야 할 모든 것이 있습니다. 동영상 보기 Kibana를 사용해 데이터 분석의 핵심 개념을 알아보세요. 자세히 보기 Kibana가 제공하는 모든

www.elastic.co

3. BI 도구

- 몇 개월 다누이의 장기적인 데이터의 추이를 시각화하거나, 집계의 조건을 세부적으로 바꿀 수 있는 

  대시보드를 만들려면, BI 도구를 사용하는 것이 적합하다.

- 이미 있는 데이터를 그대로 가져올 뿐만 아니라, 시간을 들여 데이터를 분석하기 쉽도록 가공하는

  일이 자주 있기 때문에, 시각화에 적합한 데이터 마트를 만들어 읽고 쓰는 것을 전제로 함

- BI 도구로는 무엇을 보고 싶은지에 따라 다수의 대시보드를 만드느는데, 거기에 표시되는 데이터는 화면상으로

  추려낼 수 있도록 디자인한다.

 

1) 하나의 데이터를 다각적으로 분석하기

대화형 대시보드를 만들기 위해서는 그 바탕이 되는 데이터를 모두 포함하는 테이블을 작성한 후,

분석하고자 하는 데이터들 별로 세분화해서 대시보드를 만들어 시각화하면, 하나의 데이터를 

다각적으로 분석할 수 있다.

 

 

반응형