맵리듀스는 병생성을 고려하여 설계 충분한 장비만 있다면 대규모 데이터 분석이 가능 대용량 데이터셋에서 그 진가가 드러남 하둡은 소수의 큰파일을 쉽고 효율적으로 처리한다 2.3 하둡으로 데이터 분석하기 1) 맵과 리듀스 맵리듀스 작업은 크게 맵 단계와 리듀스 단계로 구분 각 단계는 입력과 출력으로 키-값 의 쌍을 가지며, 그 타입은 프로그래머가 선택 맵 함수의 출력이 리듀스 함수의 입력으로 보내지는 과정은 맵리듀스의 프레임워크에 의해 처리(이 과정에서 키-값 쌍은 키를 기준으로 정렬) A. 맵단계 - 데이터의 준비 단계 - 리듀스 함수를 위해 데이터를 제공 - 잘못된 레코드를 걸러주는 작업을 함 - 문제가 있는 레코드를 제거하는 작업 - 각 행은 키-값 쌍으로 변환되어 맵 함수의 입력이 됨 B. 리듀스 단..