Data Engineering/HDFS

- hive : ORC 포멧

쟈누이 2020. 3. 31. 10:38
반응형

ORC : Optimized Row Columnar

ORC 파일 포맷은 하이브의 처리 속도를 높이기 위하여 개발 되었다

ORC 포맷은 칼럼 단위로 데이터를 기록하고, 인덱스를 기록하여 컬럼에 바로 접근할 수 있기 때문에 속도가 빨라진다. 

 

하나의 파일에 칼럼을 json 처럼 중첩구조로 구성할 수 있고, 리스트, 맵과 같은 복합형태로 구조를 가져갈 수 있기 때문에 오픈 소스 진영에서 많은 관심을 받고 있다.

 

 

아래 링크를 참고하여 지속 숙지해야 겠다

ORC 파일이란

https://118k.tistory.com/408

 

[hive] ORC 파일 포맷

ORC(Optimized Row Columnar) 파일 포맷 ORC 파일 포맷은 하이브의 처리 속도를 높이기 위하여 개발 되었다. 하이브가 처음에 사용한 TextFile, SequenceFile 포맷의 처리속도를 높이기 위하여 RCFile 포맷이 개발..

118k.tistory.com

 

ORC 파일 생성하는법

https://ypk123.tistory.com/1

 

ORC 파일을 생성하는 방법 정리

Hive 명령을 이용 특징 Hive 테이블을 orc 스토리지 포맷으로 생성한 후 데이터를 입력 간단하지만 스트리밍 데이터를 처리할 수 없다는 문제가 있음 예제 1. 데이터를 tsv 파일포맷으로 준비 1 박찬호 1994 2 박..

ypk123.tistory.com

 

반응형