반응형

빅데이터를 지탱하는 기술 3

빅데이터의 탐색 2 - 2. 열 지향 스토리지에 의한 고속화

- 대량의 데이터를 신속하게 집계하려면, 미리 데이터를 집계에 적합한 형태로 변환해야 한다. 1. 데이터베이스의 지연 줄이기 데이터의 양이 증가할 수록 집계하는데 시간이 길어진다. 이는 작업의 효율을 떨어뜨리며, 전체적으로는 모든 작업이 느려지는 원인이 된다. 데이터의 수집단계에서는 위 사항은 우선순위로 고려하지 않아도 되지만, DB( 데이터 레이크, 데이터 웨어하우스 ) 에서 데이터를 추출하여 분석하는 단계에서는 위 문제를 해결하는 것이 매우 중요하다. 1) 데이터의 처리 지연 - 지연이 적은 데이터 마트 작성을 위한 기초 지식 데이터 지연이 적은 데이터베이스를 만드는 방법은 두가지가 있다. 첫째, 모든 데이터를 메모리에 올리는 것 - 가장 간단한 방법이며, 적은양의 데이터를 올리는 것은 큰 문제가 되..

빅데이터 기초지식 1 - 3. BI 도구와 모니터링

- 빅데이터 탐색에 있어 중요한 것은 우선 큰 그림을 파악한 후에 점차 세부사항으로 깊게 들어가는 것이다. 1. 데이터의 모니터링 (프로젝트의 현재 상황 파악) - 모니터링이란 보다 계획적으로 데이터의 변화를 추적해 나가는 것이다. - 데이터의 변화가 예상과 다르다면, 행동을 해야되는 데 여기에는 사람의 판단이 중요 - 데이터로 상황 파악 후, 얻어진 통찰에 따라 세부 사항을 체크해서 문제를 해결해야 한다. 2. 데이터에 근거한 의사결정 (KPI - Key Performance Indicator 모니터링) - KPI 수치 파악을 통해 현재의 수치가 다음 행동에 어떤 영향을 끼칠 것인지 파악하는 것이 중요 3. 변화를 파악하고 세부 사항 이해하기 (BI 도구 활용) - BI 도구를 통해 변화를 파악하고, ..

빅데이터 기초지식 1 - 1. 빅데이터의 장착

데이터 엔지니어링 공부의 일환으로 빅데이터를 지탱하는 기술을 시작으로 여러가지 데이터 엔지니어, 분석과 관련된 책을 공부하고자 한다. 0. Note 빅데이터의 주요 역사 - 2011년 까지 : Hadoop 이나 NoSQL 데이터베이스 등 기반 기술의 발전 - 2012년 까지 : 클라우드 방식의 데이터 웨어하우스나 BI 도구의 보급 - 2013년 부터 : 스트림 처리나 애드혹(AdHoc) 분석 환경의 확충 1. 빅데이터 취급의 어려움 - 대량의 데이터 처리에 많은 수고와 시간 소요 - 데이터의 처리에 기술적 제약이 존재했음 2. 분산 처리 시스템에 의한 데이터 처리 고속화 - 빅데이터 취급의 어려운 점 극복(대량의 데이터를 한꺼번에 처리하는 것) - 대량의 데이터 활용, 가치 창출 및 의사결정 보편화 - ..

반응형