반응형

하둡 5

Apache Sentry : 하둡용 허가(Authorization) 모듈

하둡용 역할(Role)기반 허가(Authorization) 모듈로 하둡 클러스터 내에서 인증된 사용자와 애플리케이션에게 하둡내 저장보관되어 있는 데이터에 대한 권한 제어 기능을 제공하는 서비스이다 현재 Sentry는 Apache Hive, Hive Metastore/HCatalog, Apache Solr, Impla 및 HDFS(Hive 테이블 데이터 파일에 대해서만 제한적으로 지원)과 같은 에코시스템에 대한 권한 모듈 및 하둡 내의 다양한 유형의 데이터 모델에 대한 권한 기능을 제공한다. Sentry가 보초병이란 의미가 있듯이, 하둡 내의 서비스들에 대한 권한을 설정하고 이를 통한 전반적인 보안/인증 절차를 담당하는 서비스라고 보면 될 것 같다. 참고 링크: https://imp51.tistory.co..

- hive : ORC 포멧

ORC : Optimized Row Columnar ORC 파일 포맷은 하이브의 처리 속도를 높이기 위하여 개발 되었다. ORC 포맷은 칼럼 단위로 데이터를 기록하고, 인덱스를 기록하여 컬럼에 바로 접근할 수 있기 때문에 속도가 빨라진다. 하나의 파일에 칼럼을 json 처럼 중첩구조로 구성할 수 있고, 리스트, 맵과 같은 복합형태로 구조를 가져갈 수 있기 때문에 오픈 소스 진영에서 많은 관심을 받고 있다. 아래 링크를 참고하여 지속 숙지해야 겠다 ORC 파일이란 https://118k.tistory.com/408 [hive] ORC 파일 포맷 ORC(Optimized Row Columnar) 파일 포맷 ORC 파일 포맷은 하이브의 처리 속도를 높이기 위하여 개발 되었다. 하이브가 처음에 사용한 TextF..

hadoop: 하둡 명령어 1

자주 사용되는 하둡 명령어를 간단하게 정리해보았다.. hadoop fs -cat [경로] - 경로의 파일을 내용 확인 - 리눅스 cat 명령과 동일 hadoop fs -count [경로] - 경로상의 폴더, 파일, 파일사이즈를 확인 hadoop fs -cp [소스 경로] [복사 경로] - hdfs 상에서 파일 복사 hadoop fs -df /user/hadoop - 디스크 공간 확인 hadoop fs -du /user/hadoop - 파일별 사이즈 확인 hadoop fs -dus /user/hadoop - 폴더의 사이즈 확인 hadoop fs -get [소스 경로] [로컬 경로] - hdfs 의 파일 로컬로 다운로드 hadoop fs -ls [소스 경로] - 파일 목록 확인 hadoop fs -mkdir..

프로젝트 주의 사항3: cloudera 설치 후 발생할 수 있는 문제들 정리1 : DNS 문제, 구성(메모리 할당) 문제

클라우데라의 문제는 색깔 기준으로 2개로 섹션이 나뉜다. 우선 구성에 들어가 해결할 수 있는 문제들을 해결한다. 1. 빨간색(모든 상태 문제) - DNS 문제(DNS 관련 문제 가 있다고 계속 뜸) allias 로 기입을 했지만, allias 를 통한 노드 이름을 식별하지 못하는 것이기 때문에 나타나는 문제이다 이럴때는 putty 로 연결되어 있는 노드들에 들어가 노드의 이름을 allias 에서 본래 이름으로 바꾸어 준다. 그 이후에, cloudera-scm-agent / server / server-db 등을 다시 시작해 준다음에 재 로그인해주면 된다. 참고로, ssh 를 써주면 node1 에서 node2로 잠시 접속을 갈아타 일일히 가상환경을 키지 않아도 노드들의 이름을 바꾸어 줄 수가 있으므로 편하..

프로젝트 주요 개념01 - 맵리듀스(Map reduce)

맵 리듀스는 여러 노드에 테스크를 분배하는 방법이다. 각 노드 프로세스 데이터는 가능한 경우, 해당 노드에 저장된다. 맵 리듀스 테스크는 맵(map) 과 리듀스(reduce)로 구성된다. 쉬운 예시로는 Fork-Join 풀인데, 이 풀은 큰 업무를 작은 업무 단위로 쪼개고, 그것을 각기 다른 cpu에서 병렬로 실행한 후 결과를 취합하는 방식이다. 아래 이미지를 통해 fork-join 에 대해서 간략하게 이해할 수 있으니 참고. 맵 리듀스는 위 fork-join 풀처럼 큰 작업들을 fork 로 분할해서 처리한 뒤에 다시 join 해서 결과물을 만드는 방식인 것이다. 하둡은 계산시, 큰 파일을 블럭 단위로 나누고 모든 블럭은 같은 Map 작업을 수행후 다시 Reduce 작업을 수행하게 된다. - Map( 맵..

반응형