반응형

빅데이터 6

빅데이터의 탐색 4-1. 벌크형과 스트리밍 형의 데이터 수집

데이터 전송에는 벌크형과 스트리밍 형의 두 종류의 도구가 사용된다. 1. 객체 스토리지와 데이터 수집 - 분산 스토리지에 데이터 읽어들이기 빅데이터는 대부분 확장성이 높은 분산 스토리지(distributed storage)에 저장된다. 분산형의 데이터베이스가 사용되는 경우도 있지만, 대부분은 대량으로 파일을 저장하기 위해 객체 스토리지(Object storage) 를 쓴다. 객체 스토리지는 다수의 컴퓨터를 사용하여 파일을 디스크에 복사함으로써 데이터의 중복화 및 부하 분산을 실현한다. 대표적인 예시로 Hadoop 의 HDFS, 클라우드 서비스의 Amazon S3 가 있다. 객체 스토리지에서의 파일 읽고 쓰기는 네트워크를 거쳐서 실행한다. 데이터는 항상 여러 디스크에 복제되기 때문에 일부 하드웨어가 고장나..

빅데이터의 탐색 2 - 2. 열 지향 스토리지에 의한 고속화

- 대량의 데이터를 신속하게 집계하려면, 미리 데이터를 집계에 적합한 형태로 변환해야 한다. 1. 데이터베이스의 지연 줄이기 데이터의 양이 증가할 수록 집계하는데 시간이 길어진다. 이는 작업의 효율을 떨어뜨리며, 전체적으로는 모든 작업이 느려지는 원인이 된다. 데이터의 수집단계에서는 위 사항은 우선순위로 고려하지 않아도 되지만, DB( 데이터 레이크, 데이터 웨어하우스 ) 에서 데이터를 추출하여 분석하는 단계에서는 위 문제를 해결하는 것이 매우 중요하다. 1) 데이터의 처리 지연 - 지연이 적은 데이터 마트 작성을 위한 기초 지식 데이터 지연이 적은 데이터베이스를 만드는 방법은 두가지가 있다. 첫째, 모든 데이터를 메모리에 올리는 것 - 가장 간단한 방법이며, 적은양의 데이터를 올리는 것은 큰 문제가 되..

빅데이터 기초지식 1 - 3. BI 도구와 모니터링

- 빅데이터 탐색에 있어 중요한 것은 우선 큰 그림을 파악한 후에 점차 세부사항으로 깊게 들어가는 것이다. 1. 데이터의 모니터링 (프로젝트의 현재 상황 파악) - 모니터링이란 보다 계획적으로 데이터의 변화를 추적해 나가는 것이다. - 데이터의 변화가 예상과 다르다면, 행동을 해야되는 데 여기에는 사람의 판단이 중요 - 데이터로 상황 파악 후, 얻어진 통찰에 따라 세부 사항을 체크해서 문제를 해결해야 한다. 2. 데이터에 근거한 의사결정 (KPI - Key Performance Indicator 모니터링) - KPI 수치 파악을 통해 현재의 수치가 다음 행동에 어떤 영향을 끼칠 것인지 파악하는 것이 중요 3. 변화를 파악하고 세부 사항 이해하기 (BI 도구 활용) - BI 도구를 통해 변화를 파악하고, ..

빅데이터 기초지식 1 - 1. 빅데이터의 장착

데이터 엔지니어링 공부의 일환으로 빅데이터를 지탱하는 기술을 시작으로 여러가지 데이터 엔지니어, 분석과 관련된 책을 공부하고자 한다. 0. Note 빅데이터의 주요 역사 - 2011년 까지 : Hadoop 이나 NoSQL 데이터베이스 등 기반 기술의 발전 - 2012년 까지 : 클라우드 방식의 데이터 웨어하우스나 BI 도구의 보급 - 2013년 부터 : 스트림 처리나 애드혹(AdHoc) 분석 환경의 확충 1. 빅데이터 취급의 어려움 - 대량의 데이터 처리에 많은 수고와 시간 소요 - 데이터의 처리에 기술적 제약이 존재했음 2. 분산 처리 시스템에 의한 데이터 처리 고속화 - 빅데이터 취급의 어려운 점 극복(대량의 데이터를 한꺼번에 처리하는 것) - 대량의 데이터 활용, 가치 창출 및 의사결정 보편화 - ..

프로젝트 주의 사항3: cloudera 설치 후 발생할 수 있는 문제들 정리1 : DNS 문제, 구성(메모리 할당) 문제

클라우데라의 문제는 색깔 기준으로 2개로 섹션이 나뉜다. 우선 구성에 들어가 해결할 수 있는 문제들을 해결한다. 1. 빨간색(모든 상태 문제) - DNS 문제(DNS 관련 문제 가 있다고 계속 뜸) allias 로 기입을 했지만, allias 를 통한 노드 이름을 식별하지 못하는 것이기 때문에 나타나는 문제이다 이럴때는 putty 로 연결되어 있는 노드들에 들어가 노드의 이름을 allias 에서 본래 이름으로 바꾸어 준다. 그 이후에, cloudera-scm-agent / server / server-db 등을 다시 시작해 준다음에 재 로그인해주면 된다. 참고로, ssh 를 써주면 node1 에서 node2로 잠시 접속을 갈아타 일일히 가상환경을 키지 않아도 노드들의 이름을 바꾸어 줄 수가 있으므로 편하..

프로젝트 주요 개념01 - 맵리듀스(Map reduce)

맵 리듀스는 여러 노드에 테스크를 분배하는 방법이다. 각 노드 프로세스 데이터는 가능한 경우, 해당 노드에 저장된다. 맵 리듀스 테스크는 맵(map) 과 리듀스(reduce)로 구성된다. 쉬운 예시로는 Fork-Join 풀인데, 이 풀은 큰 업무를 작은 업무 단위로 쪼개고, 그것을 각기 다른 cpu에서 병렬로 실행한 후 결과를 취합하는 방식이다. 아래 이미지를 통해 fork-join 에 대해서 간략하게 이해할 수 있으니 참고. 맵 리듀스는 위 fork-join 풀처럼 큰 작업들을 fork 로 분할해서 처리한 뒤에 다시 join 해서 결과물을 만드는 방식인 것이다. 하둡은 계산시, 큰 파일을 블럭 단위로 나누고 모든 블럭은 같은 Map 작업을 수행후 다시 Reduce 작업을 수행하게 된다. - Map( 맵..

반응형