Book/하둡 완벽 가이드

[하둡 완벽 가이드] 1. 하둡과의 만남

쟈누이 2022. 3. 30. 21:42
반응형

 

 

1-1. 빅데이터!


  • 미래의 성공은 다른 조직의 데이터에서 가치를 추출하는 능력에 달려 있음
  • 다양한 출처의 정보를 융합할 수 있으면 지금까지 예상하거나 상상할 수 없었던 새로운 프로그램도 만들 수 있음
  • 하지만 수많은 데이터를 저장하고 분석하는 일은 매우 어려움

 

 

1-2. 데이터 저장소와 분석


  • 데이터를 읽는 속도는 증가하지 않았음(발전하지 않음)
  • 이에 대한 대안은 여러개의 디스크에서 동시에 데이터를 읽는 것임

 

 

1-3. 전체 데이터에 질의하기


  • 한번의 쿼리로 젠처네 상당한 규모의 데이터셋을 처리하는 것이 맵리듀스의 장점
  • 맵리듀스는 일괄 질의 처리기
  • 전체 데이터 셋을 대상으로 비정형 쿼리를 수행하고 합리적인 시간 내에 그 결과를 보여주는 능력이 있음

 

 

 

1-4. 일괄 처리를 넘어서


  • 맵리듀스는 일괄 처리 시스템이기 때문에(한꺼번에 처리하기 때문에) 대화형 분석에는 적합하지 않음
  • 질의를 실행한 후 수 초 이내에 결과를 받는 것은 불가능

 

1) 하둡이란?

  • 최초에는 일괄 처리를 위해 만들어짐
  • hdfs 와 맵리듀스만이 아닌 수많은 에코시스템 프로젝트를 지칭
  • 하둡 에코 시스템은 분산 컴퓨팅과 대규모 데이터 처리를 위한 기반 시설

2) Hbase ?

  • hdfs 를 기본 저장소로 하는 키-값 저장소
  • 온라인 읽기/쓰기와 산적한 데이터를 읽고 쓰는 일괄 처리를 둘다 지원

3) YARN ?

  • 클러스터 자원 관리 시스템
  • 맵리듀스 뿐만 아니라 어떤 분산 프로그램도 하둡 클러스터에 저장된 데이터를 처리할 수 있게 해줌

 

 

1-5. 다른 시스템과의 비교


  RDBMS 맵 리듀스
데이터 크기 기가 바이트 페타 바이트
접근 방식 대화형과 일괄 처리 방식 일괄 처리 방식
변경 여러번 읽고 쓰기 한번 쓰고 여러번 읽기
트랜잭션  ACID 없음
구조 쓰기 기준 스키마 읽기 기준 스키마
무결성 높음 낮음
확장성 비선형 선형
  • 맵리듀스는 비정형 분석과 같이 일괄 처리방식으로 전체 데이터 셋을 분석할 필요가 있는 문제에 적합
  • RDBMS 는 상대적으로 작은 양의 데이터를 낮은 지연 시간에 추출하고 변경하기위해 데이터 셋을 색인하기 때문에 특정 쿼리와 데이터 변경에 적합
  • 하둡은 데이터 지역성을 가지고 있음(계산 노드에 데이터를 함계 배치하므로, 데이터가 로컬에 있기 때문에 접근이 빠르다)
반응형

'Book > 하둡 완벽 가이드' 카테고리의 다른 글

[하둡 완벽 가이드] 2. 맵리듀스  (0) 2022.03.31