반응형

Book/하둡 완벽 가이드 2

[하둡 완벽 가이드] 2. 맵리듀스

맵리듀스는 병생성을 고려하여 설계 충분한 장비만 있다면 대규모 데이터 분석이 가능 대용량 데이터셋에서 그 진가가 드러남 하둡은 소수의 큰파일을 쉽고 효율적으로 처리한다 2.3 하둡으로 데이터 분석하기 1) 맵과 리듀스 맵리듀스 작업은 크게 맵 단계와 리듀스 단계로 구분 각 단계는 입력과 출력으로 키-값 의 쌍을 가지며, 그 타입은 프로그래머가 선택 맵 함수의 출력이 리듀스 함수의 입력으로 보내지는 과정은 맵리듀스의 프레임워크에 의해 처리(이 과정에서 키-값 쌍은 키를 기준으로 정렬) A. 맵단계 - 데이터의 준비 단계 - 리듀스 함수를 위해 데이터를 제공 - 잘못된 레코드를 걸러주는 작업을 함 - 문제가 있는 레코드를 제거하는 작업 - 각 행은 키-값 쌍으로 변환되어 맵 함수의 입력이 됨 B. 리듀스 단..

[하둡 완벽 가이드] 1. 하둡과의 만남

1-1. 빅데이터! 미래의 성공은 다른 조직의 데이터에서 가치를 추출하는 능력에 달려 있음 다양한 출처의 정보를 융합할 수 있으면 지금까지 예상하거나 상상할 수 없었던 새로운 프로그램도 만들 수 있음 하지만 수많은 데이터를 저장하고 분석하는 일은 매우 어려움 1-2. 데이터 저장소와 분석 데이터를 읽는 속도는 증가하지 않았음(발전하지 않음) 이에 대한 대안은 여러개의 디스크에서 동시에 데이터를 읽는 것임 1-3. 전체 데이터에 질의하기 한번의 쿼리로 젠처네 상당한 규모의 데이터셋을 처리하는 것이 맵리듀스의 장점 맵리듀스는 일괄 질의 처리기 전체 데이터 셋을 대상으로 비정형 쿼리를 수행하고 합리적인 시간 내에 그 결과를 보여주는 능력이 있음 1-4. 일괄 처리를 넘어서 맵리듀스는 일괄 처리 시스템이기 때문..

반응형