반응형

Data Engineering/HDFS 17

cloudera 실행 안될 시 로그 확인방법

실행이 안될 시 로그를 확인하는 방법을 발견하여 아래 링크를 통해 공유한다. /var/log/cloudera-scm-server/cloudera-scm-server.log 를 확인 cat /var/log/cloudera-scm-server/cloudera-scm-server.log | grep 을 사용하여 부분 분석 확인 예시 /var/log/cloudera-scm-server/cloudera-scm-server.log | grep web /var/log/cloudera-scm-server/cloudera-scm-server.log | grep7180 앞으로 자주 봐야겟지만.. 문제가 발생할 경우 로그에 기록이 남고 그걸 구글링하면서 해결하면 되겠지..? 아래 링크 참고 https://jaeman1990..

- hive : SerDe (서데) 란?

하이브가 데이터를 해석하는 방법을 제공한다. 하이브는 서데와 파일 포멧을 이용하고 데이터를 읽고 쓸 수 있다. 하이브에서 제공하는 기본 서데는 7가지(Avro, ORC, RegEx, Thrift, Parquet, CSV, JsonSerDe)가 있으며, 각 서데는 STORED AS 에 지정하는 파일의 포맷에 따라 자동으로 선택된다. 자세한 사항은 아래 링크를 참고하여 공부할 것 https://wikidocs.net/25306 위키독스 온라인 책을 제작 공유하는 플랫폼 서비스 wikidocs.net

- hive : ORC 포멧

ORC : Optimized Row Columnar ORC 파일 포맷은 하이브의 처리 속도를 높이기 위하여 개발 되었다. ORC 포맷은 칼럼 단위로 데이터를 기록하고, 인덱스를 기록하여 컬럼에 바로 접근할 수 있기 때문에 속도가 빨라진다. 하나의 파일에 칼럼을 json 처럼 중첩구조로 구성할 수 있고, 리스트, 맵과 같은 복합형태로 구조를 가져갈 수 있기 때문에 오픈 소스 진영에서 많은 관심을 받고 있다. 아래 링크를 참고하여 지속 숙지해야 겠다 ORC 파일이란 https://118k.tistory.com/408 [hive] ORC 파일 포맷 ORC(Optimized Row Columnar) 파일 포맷 ORC 파일 포맷은 하이브의 처리 속도를 높이기 위하여 개발 되었다. 하이브가 처음에 사용한 TextF..

hadoop: 하둡 명령어 1

자주 사용되는 하둡 명령어를 간단하게 정리해보았다.. hadoop fs -cat [경로] - 경로의 파일을 내용 확인 - 리눅스 cat 명령과 동일 hadoop fs -count [경로] - 경로상의 폴더, 파일, 파일사이즈를 확인 hadoop fs -cp [소스 경로] [복사 경로] - hdfs 상에서 파일 복사 hadoop fs -df /user/hadoop - 디스크 공간 확인 hadoop fs -du /user/hadoop - 파일별 사이즈 확인 hadoop fs -dus /user/hadoop - 폴더의 사이즈 확인 hadoop fs -get [소스 경로] [로컬 경로] - hdfs 의 파일 로컬로 다운로드 hadoop fs -ls [소스 경로] - 파일 목록 확인 hadoop fs -mkdir..

프로젝트 주요 개념02 - 애드혹 분석(Ad-hoc)

데이터 관련 프로젝트를 진행하다보면 자주 나오는 개념인데.. 그럴때마다 계속 읽었지만 까먹어서 이참에 기록을 해두어야 겠다.. 애드혹이란 위키백과를 기준으로 설명을 우선 하자면, 라틴어로써 뜻은 '이것을 위해', '특별한 목적을 위해서' 라는 의미를 가지고 있다. 1. 특정한 문제나 일을 위해 만들어진 관습적인 해결책 2. 일반화할 수 없는 해결책 3. 어떤 다른 목적에 적응시킬 수 없는 해결책 어도비에서 내린 간단한 정의는 이렇군요. 실시간 방문자 정보를 제한없이 활용하여, 가치가 높은 고객 세그먼트를 식별할 수 있도록 돕기 때문에 데이터를 심층 분석하여 고객을 더 깊고 정확하고 종합적인 방식으로 이해한다. datapine 이라는 외국의 웹사이트에서 내린 정의에 따르면 what Is Ad Hoc Ana..

설치 사전 작업 : open JDK vs oracle JDK

클라우데라를 설치하는 데 있어 주의해야될 점이 있는데 바로 JDK를 설치하는 것이다. JDK 의 경우에는 Cloudera 설치를 위해서는 open JDK 를 설치할 것을 권장하고 있는데, 그 이유는 Oracle JDK 를 설치할 경우에는 라이선스 문제로 인해 JDK 사용에 제약이 걸려 Cloudera 를 실행하는 데 문제가 발생할 수 있다. 그것을 미연에 방지하기 위해 open JDK 를 설치할 것을 권장하고 있다. 자세한 사항은 추후 하단 링크 참고 https://jsonobject.tistory.com/395 Java 유료 논쟁, Oracle JDK와 OpenJDK의 차이 정리 Oracle JDK와 OpenJDK Java 애플리케이션을 실행하기 위해서는 JVM이 필요하고 컴파일하기 위해서는 JDK가 ..

프로젝트 주요 개념01 - 맵리듀스(Map reduce)

맵 리듀스는 여러 노드에 테스크를 분배하는 방법이다. 각 노드 프로세스 데이터는 가능한 경우, 해당 노드에 저장된다. 맵 리듀스 테스크는 맵(map) 과 리듀스(reduce)로 구성된다. 쉬운 예시로는 Fork-Join 풀인데, 이 풀은 큰 업무를 작은 업무 단위로 쪼개고, 그것을 각기 다른 cpu에서 병렬로 실행한 후 결과를 취합하는 방식이다. 아래 이미지를 통해 fork-join 에 대해서 간략하게 이해할 수 있으니 참고. 맵 리듀스는 위 fork-join 풀처럼 큰 작업들을 fork 로 분할해서 처리한 뒤에 다시 join 해서 결과물을 만드는 방식인 것이다. 하둡은 계산시, 큰 파일을 블럭 단위로 나누고 모든 블럭은 같은 Map 작업을 수행후 다시 Reduce 작업을 수행하게 된다. - Map( 맵..

반응형