Data Engineering/HDFS

[HDFS] apache Tez 란?

쟈누이 2022. 4. 6. 10:33
반응형

 

1. 아파치 테즈란?


우선 Apache Tez는 MapReduce와 동일하게 YARN 기반으로 실행되는 데이터 처리를 위한 프레임워크

Tez도 YARN으로부터 컨테이너를 할당받아서 작업을 수행

 

기존의 Map Reduce 엔진을 대체하는 새로운 데이터 처리를 위한 엔진

Hive3 로 넘어가면서 공식 엔진으로 채택되어 map reduce 엔진을 대체했다.

 

 

 

 

 

2. 왜 대체되었을까?


MapReduce 엔진은 하이브 쿼리를 실행시킬 때,

 쿼리 속도 문제에 대한 이슈가 많았기 때문에 이로 인하여 새로운 Tez 엔진으로 대체

 

Tez 엔진으로 쿼리를 돌렸을 때, map reduce 엔진으로 쿼리를 돌렸을 때보다 속도가 월등히 빨랐다

(유스 케이스에서는 30초 정도 빨랐다고 나옴)

 

 

 

3. tez 와 map reduce 는 어떤 차이를 가지고 있는 것일까?


tez step : Map -> 메모리(처리 결과 저장) -> Reduce -> reduce (최종 결과 저장)

map reduce step : Map -> reduce -> hdfs(결과 저장) -> map -> reduce(최종결과 저장)

 

" 데이터 처리 -> 결과 저장 " 이 과정을 따로 거치지 않고 메모리에서 이 과정을 한번에 처리 후에 reduce 로 전달

하기 때문에 속도가 빠르다

 

 

 

 

4. 참고 링크


https://joonyon.tistory.com/163

 

Apache Tez란 무엇인가?

Hive3 버전으로 넘어가면서 기존의 MapReduce 기반의 쿼리 엔진은 공식적으로 권장하지 않게 되었습니다. Hive3에서 MapReduce를 이용하여 쿼리를 실행시키면 "mapreduce deprecated" 라는 단어를 확인할 수 있

joonyon.tistory.com

 

반응형