- 데이터를 시각화하기 위한 소프트웨어는 여러가지 종류가 있다
1. Jupyter Notebook에 의한 애드 혹 분석
- 노트북에 분석 과정 기록하기
노트북 안에서는 파이썬 스크립트와 외부 명령어를 실행할 수 있으며, 실행 내용은 모두
기록되고 과거로 돌아가서 편집하거나 재실행할 수도 있다.
- 마크다운 형식으로 주석을 넣어 모양을 좋게 하거나, 사진 또는 수식을 포함할 수 있다.
- 스프레드 시트, BI 도구 없이 크로스 집계결과를 시각화가 가능하다.
1) Matplotlib (노트북 내에서의 시각화)
- 과학 기술 계산 분야에서 사용되는 시각화 라이브러리 중 하나
- 복잡한 그래프를 파이썬을 사용하여 생성
- 프로그래밍이 필요하여 시간이 걸리는 단점 존재, 분석과정에서 유사항 그래프를 다시 만들 때 유용
2. 대시보드 도구
- 정기적으로 집계 결과 시각화 하기
- BI 도구에 비하여 데이터 탐색이 중요시되는 점을 보임
- 정해진 지표의 일상적인 변화를 모니터링하고 싶은 경우 사용
- 대표적인 예시로는 Redash, Superset 그리고 Kibana 등이 해당된다.
1) Redash
장점
- SQL에 의한 쿼리의 실행 결과를 그대로 시가고하하는 데 적합
- 대시보드가 직관적이며, 하나의 쿼리가 하나 또는 여러
단점
- BI 도구만큼 대량의 데이터 처리 불가
- 적은 수의 행과 열만 레코드에 반환됨
- 대시보드가 증가함에 따라 백엔드 DB의 부하가 높아지는 단점이 있다.
2) Superset
장점
- 화면상에서 마우스 조작만으로 그래프를 만들 수 있음
- 대화형 대시보드를 작성하기 위해 파이써능로 만든 웹 애플리케이션
- 마우스 조작만으로 그래프를 만들 수 있음
- 내장 스토리지 시스템이 없어서, 데이터 집계는 외부 데이터 저장소에 의지
- 시계열 데이터에 대응한 열 지향 스토리지인 Druid 를 표준으로 지원
- 스트리밍 형 데이터 전송과 조합시켜 실시간 정보를 취급할 수 있음
단점
- 시각화를 위한 데이터 마트를 먼저 만들어야 함
- 집계 전 시가고하에 필요한 데이터는 미리 모두 결합해 두어야 함
https://superset.incubator.apache.org/index.html
3) Kibana
- 엘라스틱 서치의 프론트 엔드에서 실시간으로 작성
- 자바 스크립트로 만들어진 대화형 시각화 도구로서 실시간 대시보드를 만들 목적으로 이용
- 엘라스틱 서치의 프런트 엔드로 개발되었기 때문에 도입에는 엘라스틱 서치가 필수
- 시가고하하려는 데이터는 모두 엘라스틱서치에 저장해야 됨.
https://www.elastic.co/kr/kibana
3. BI 도구
- 몇 개월 다누이의 장기적인 데이터의 추이를 시각화하거나, 집계의 조건을 세부적으로 바꿀 수 있는
대시보드를 만들려면, BI 도구를 사용하는 것이 적합하다.
- 이미 있는 데이터를 그대로 가져올 뿐만 아니라, 시간을 들여 데이터를 분석하기 쉽도록 가공하는
일이 자주 있기 때문에, 시각화에 적합한 데이터 마트를 만들어 읽고 쓰는 것을 전제로 함
- BI 도구로는 무엇을 보고 싶은지에 따라 다수의 대시보드를 만드느는데, 거기에 표시되는 데이터는 화면상으로
추려낼 수 있도록 디자인한다.
1) 하나의 데이터를 다각적으로 분석하기
대화형 대시보드를 만들기 위해서는 그 바탕이 되는 데이터를 모두 포함하는 테이블을 작성한 후,
분석하고자 하는 데이터들 별로 세분화해서 대시보드를 만들어 시각화하면, 하나의 데이터를
다각적으로 분석할 수 있다.
'Book > 빅데이터를 지탱하는 기술' 카테고리의 다른 글
빅데이터의 탐색 4-1. 벌크형과 스트리밍 형의 데이터 수집 (0) | 2020.12.03 |
---|---|
빅데이터의 탐색 3-2. 쿼리 엔진 (0) | 2020.10.19 |
빅데이터의 탐색 2 - 2. 열 지향 스토리지에 의한 고속화 (0) | 2020.06.21 |
빅데이터 기초지식 1 - 3. BI 도구와 모니터링 (0) | 2020.06.19 |
빅데이터 기초지식 1 - 2. 빅데이터 시대의 데이터 분석 기반 ( 2) (0) | 2020.06.17 |