반응형
1-1. 빅데이터!
- 미래의 성공은 다른 조직의 데이터에서 가치를 추출하는 능력에 달려 있음
- 다양한 출처의 정보를 융합할 수 있으면 지금까지 예상하거나 상상할 수 없었던 새로운 프로그램도 만들 수 있음
- 하지만 수많은 데이터를 저장하고 분석하는 일은 매우 어려움
1-2. 데이터 저장소와 분석
- 데이터를 읽는 속도는 증가하지 않았음(발전하지 않음)
- 이에 대한 대안은 여러개의 디스크에서 동시에 데이터를 읽는 것임
1-3. 전체 데이터에 질의하기
- 한번의 쿼리로 젠처네 상당한 규모의 데이터셋을 처리하는 것이 맵리듀스의 장점
- 맵리듀스는 일괄 질의 처리기
- 전체 데이터 셋을 대상으로 비정형 쿼리를 수행하고 합리적인 시간 내에 그 결과를 보여주는 능력이 있음
1-4. 일괄 처리를 넘어서
- 맵리듀스는 일괄 처리 시스템이기 때문에(한꺼번에 처리하기 때문에) 대화형 분석에는 적합하지 않음
- 질의를 실행한 후 수 초 이내에 결과를 받는 것은 불가능
1) 하둡이란?
- 최초에는 일괄 처리를 위해 만들어짐
- hdfs 와 맵리듀스만이 아닌 수많은 에코시스템 프로젝트를 지칭
- 하둡 에코 시스템은 분산 컴퓨팅과 대규모 데이터 처리를 위한 기반 시설
2) Hbase ?
- hdfs 를 기본 저장소로 하는 키-값 저장소
- 온라인 읽기/쓰기와 산적한 데이터를 읽고 쓰는 일괄 처리를 둘다 지원
3) YARN ?
- 클러스터 자원 관리 시스템
- 맵리듀스 뿐만 아니라 어떤 분산 프로그램도 하둡 클러스터에 저장된 데이터를 처리할 수 있게 해줌
1-5. 다른 시스템과의 비교
RDBMS | 맵 리듀스 | |
데이터 크기 | 기가 바이트 | 페타 바이트 |
접근 방식 | 대화형과 일괄 처리 방식 | 일괄 처리 방식 |
변경 | 여러번 읽고 쓰기 | 한번 쓰고 여러번 읽기 |
트랜잭션 | ACID | 없음 |
구조 | 쓰기 기준 스키마 | 읽기 기준 스키마 |
무결성 | 높음 | 낮음 |
확장성 | 비선형 | 선형 |
- 맵리듀스는 비정형 분석과 같이 일괄 처리방식으로 전체 데이터 셋을 분석할 필요가 있는 문제에 적합
- RDBMS 는 상대적으로 작은 양의 데이터를 낮은 지연 시간에 추출하고 변경하기위해 데이터 셋을 색인하기 때문에 특정 쿼리와 데이터 변경에 적합
- 하둡은 데이터 지역성을 가지고 있음(계산 노드에 데이터를 함계 배치하므로, 데이터가 로컬에 있기 때문에 접근이 빠르다)
반응형
'Book > 하둡 완벽 가이드' 카테고리의 다른 글
[하둡 완벽 가이드] 2. 맵리듀스 (0) | 2022.03.31 |
---|