반응형
ORC : Optimized Row Columnar
ORC 파일 포맷은 하이브의 처리 속도를 높이기 위하여 개발 되었다.
ORC 포맷은 칼럼 단위로 데이터를 기록하고, 인덱스를 기록하여 컬럼에 바로 접근할 수 있기 때문에 속도가 빨라진다.
하나의 파일에 칼럼을 json 처럼 중첩구조로 구성할 수 있고, 리스트, 맵과 같은 복합형태로 구조를 가져갈 수 있기 때문에 오픈 소스 진영에서 많은 관심을 받고 있다.
아래 링크를 참고하여 지속 숙지해야 겠다
ORC 파일이란
ORC 파일 생성하는법
반응형
'Data Engineering > HDFS' 카테고리의 다른 글
cloudera 실행 안될 시 로그 확인방법 (0) | 2020.04.01 |
---|---|
- hive : SerDe (서데) 란? (0) | 2020.03.31 |
hadoop: 하둡 명령어 1 (0) | 2020.03.24 |
프로젝트 주요 개념02 - 애드혹 분석(Ad-hoc) (0) | 2020.03.11 |
설치 사전 작업 : open JDK vs oracle JDK (0) | 2020.03.10 |