반응형

Book/빅데이터를 지탱하는 기술 8

빅데이터의 탐색 4-1. 벌크형과 스트리밍 형의 데이터 수집

데이터 전송에는 벌크형과 스트리밍 형의 두 종류의 도구가 사용된다. 1. 객체 스토리지와 데이터 수집 - 분산 스토리지에 데이터 읽어들이기 빅데이터는 대부분 확장성이 높은 분산 스토리지(distributed storage)에 저장된다. 분산형의 데이터베이스가 사용되는 경우도 있지만, 대부분은 대량으로 파일을 저장하기 위해 객체 스토리지(Object storage) 를 쓴다. 객체 스토리지는 다수의 컴퓨터를 사용하여 파일을 디스크에 복사함으로써 데이터의 중복화 및 부하 분산을 실현한다. 대표적인 예시로 Hadoop 의 HDFS, 클라우드 서비스의 Amazon S3 가 있다. 객체 스토리지에서의 파일 읽고 쓰기는 네트워크를 거쳐서 실행한다. 데이터는 항상 여러 디스크에 복제되기 때문에 일부 하드웨어가 고장나..

빅데이터의 탐색 3-2. 쿼리 엔진

1. 데이터 마트 구축의 파이프라인 - 처음에 분산 스토리지에 저장된 데이터를 구조화하고 열 지향 스토리지 형식으로 저장한다. - 이것은 다수의 텍스트 파일을 읽어 들여 가공하는 부하가 큰 처리가 되기 때문에 HIVE 를 이용한다. - 그리고 완성한 구주화 데이터 데이터를 결합, 집계하고 비정규화 테이블로 데이터 마트에 써서 내보낸다. - 열 지향 스토리지를 이용한 쿼리의 실행에는 Presto를 사용함으로써 실행시간 단축 가능 - Hive 에서 만든 각 테이블의 정보는 Hive 메타스토어라고 불리는 특별한 데이터베이스에 저장된다. 이것은 hive 뿐만 아니라 sql-on-hadoop의 쿼리엔진에서도 공통의 테이블 정보로 참고된다. (메타스토어에 대한 정보) wikidocs.net/28353 위키독스 온라..

빅데이터의 탐색 2 - 3. 애드 혹 분석과 시각화 도구

- 데이터를 시각화하기 위한 소프트웨어는 여러가지 종류가 있다 1. Jupyter Notebook에 의한 애드 혹 분석 - 노트북에 분석 과정 기록하기 노트북 안에서는 파이썬 스크립트와 외부 명령어를 실행할 수 있으며, 실행 내용은 모두 기록되고 과거로 돌아가서 편집하거나 재실행할 수도 있다. - 마크다운 형식으로 주석을 넣어 모양을 좋게 하거나, 사진 또는 수식을 포함할 수 있다. - 스프레드 시트, BI 도구 없이 크로스 집계결과를 시각화가 가능하다. 1) Matplotlib (노트북 내에서의 시각화) - 과학 기술 계산 분야에서 사용되는 시각화 라이브러리 중 하나 - 복잡한 그래프를 파이썬을 사용하여 생성 - 프로그래밍이 필요하여 시간이 걸리는 단점 존재, 분석과정에서 유사항 그래프를 다시 만들 때..

빅데이터의 탐색 2 - 2. 열 지향 스토리지에 의한 고속화

- 대량의 데이터를 신속하게 집계하려면, 미리 데이터를 집계에 적합한 형태로 변환해야 한다. 1. 데이터베이스의 지연 줄이기 데이터의 양이 증가할 수록 집계하는데 시간이 길어진다. 이는 작업의 효율을 떨어뜨리며, 전체적으로는 모든 작업이 느려지는 원인이 된다. 데이터의 수집단계에서는 위 사항은 우선순위로 고려하지 않아도 되지만, DB( 데이터 레이크, 데이터 웨어하우스 ) 에서 데이터를 추출하여 분석하는 단계에서는 위 문제를 해결하는 것이 매우 중요하다. 1) 데이터의 처리 지연 - 지연이 적은 데이터 마트 작성을 위한 기초 지식 데이터 지연이 적은 데이터베이스를 만드는 방법은 두가지가 있다. 첫째, 모든 데이터를 메모리에 올리는 것 - 가장 간단한 방법이며, 적은양의 데이터를 올리는 것은 큰 문제가 되..

빅데이터 기초지식 1 - 3. BI 도구와 모니터링

- 빅데이터 탐색에 있어 중요한 것은 우선 큰 그림을 파악한 후에 점차 세부사항으로 깊게 들어가는 것이다. 1. 데이터의 모니터링 (프로젝트의 현재 상황 파악) - 모니터링이란 보다 계획적으로 데이터의 변화를 추적해 나가는 것이다. - 데이터의 변화가 예상과 다르다면, 행동을 해야되는 데 여기에는 사람의 판단이 중요 - 데이터로 상황 파악 후, 얻어진 통찰에 따라 세부 사항을 체크해서 문제를 해결해야 한다. 2. 데이터에 근거한 의사결정 (KPI - Key Performance Indicator 모니터링) - KPI 수치 파악을 통해 현재의 수치가 다음 행동에 어떤 영향을 끼칠 것인지 파악하는 것이 중요 3. 변화를 파악하고 세부 사항 이해하기 (BI 도구 활용) - BI 도구를 통해 변화를 파악하고, ..

빅데이터 기초지식 1 - 2. 빅데이터 시대의 데이터 분석 기반 ( 2)

1. 데이터 분석 기반을 단계적으로 발전 시키기 - 팀과 역할 분담, 스몰 스타트와 확장 - 데이터 분석에 필요한 기술은 다방면에 걸쳐 있기 때문에 주로 팀을 이루어 작업이다 - 데이터 엔지니어 : 시스템의 구축 및 운용, 자동화 등을 담당하는 역할 - 데이터 분석가 : 데이터에서 가치 있는 정보를 추출하는 역할 → 이들은 요구되는 지식뿐만 아니라 사용하는 도구도 다르다. 1 ) 애드혹 분석 및 대시보드 도구 - 애드혹 분석 > 일회성 데이터 분석의 의미를 지님 > sql 쿼리를 직접 작성, 그래프 작성등 대부분 수작업이 애드혹 분석에 포함 > 데이터 레이크웨 데이터 마트를 직접 연결하여 데이터 추출 및 분석 작업 다수 > 쿼리 실행 후 즉시 확인 가능한 대화형 분석 도구사용 2 ) 데이터 마트와 워크 ..

빅데이터 기초지식 1 - 2. 빅데이터 시대의 데이터 분석 기반 ( 1 )

요점 빅데이터 기술과 데이터웨어 하우스의 다른점은 다수의 분산 시스템을 조합하여 확장성이 뛰어난 데이터 처리 구조를 만든다는 점이다.. 1. 빅데이터의 기술 - 분산 시스템을 활용하여 데이터를 가공하는 구조 1) 데이터 파이프라인 - 데이터를 추출하여 특정 db 등 다른 저장 장치로 옮기는 기술, - 수집 장소, 활용 목표에 따라 변화함, - 간단한 구상에서 복잡하게 여러 개를 조합시켜야할 수도 있어야 함을 고려해야함 2) 데이터 수집 - 데이터 파이프라인의 시작, - 데이터 전송에는 크게 두가지 방법이 존재 벌크형(bulk), 스트리밍 형(streaming) 으로 나뉨. 벌크형 : 이미 존재하는 데이터 추출, 데이터베이스와 서버 등에서 정기적으로 수집 스트리밍형 : 생성되는 데이터를 끊임없이 내보냄, ..

빅데이터 기초지식 1 - 1. 빅데이터의 장착

데이터 엔지니어링 공부의 일환으로 빅데이터를 지탱하는 기술을 시작으로 여러가지 데이터 엔지니어, 분석과 관련된 책을 공부하고자 한다. 0. Note 빅데이터의 주요 역사 - 2011년 까지 : Hadoop 이나 NoSQL 데이터베이스 등 기반 기술의 발전 - 2012년 까지 : 클라우드 방식의 데이터 웨어하우스나 BI 도구의 보급 - 2013년 부터 : 스트림 처리나 애드혹(AdHoc) 분석 환경의 확충 1. 빅데이터 취급의 어려움 - 대량의 데이터 처리에 많은 수고와 시간 소요 - 데이터의 처리에 기술적 제약이 존재했음 2. 분산 처리 시스템에 의한 데이터 처리 고속화 - 빅데이터 취급의 어려운 점 극복(대량의 데이터를 한꺼번에 처리하는 것) - 대량의 데이터 활용, 가치 창출 및 의사결정 보편화 - ..

반응형