반응형

Data Engineering/HDFS 17

[Ambari] Unable to lookup the cluster by ID; assuming that there is no cluster and therefore no configs for this execution command: Cluster not found error

1. 발생 원인 - ambari host 가 DB에 접속해서 정보를 업데이트 하려고 할 때 접속이 잘 되지 않아서 발생하는 에러 2. 해결 방법 - 심각한 에러는 아님 - 간혹 오랜시간동안 위 에러가 발생한다면 아래의 명령으로 ambari 를 다시 껐다가 킬 것 ambari-server stop ambari-server start 3. 참고 링크 https://community.cloudera.com/t5/Support-Questions/Unable-to-lookup-the-cluster-by-ID-Error-in-Ambari-quot/td-p/213096 Unable to lookup the cluster by ID Error in Ambari "confirm Hosts" step While perfo..

[BigTop Ambari 설치] 1. 환경 세팅

1. Apache Bigtop Ambari 사용 이유 이번에 BigTop Ambari Hadoop 을 사용할 기회가 생김 CDP / HDP 가 2년전부터 막혀있기 때문에 선택 아직은 프로젝트가 미성숙해서 안되는 부분들이 많기는 하지만 클라우데라, 호튼웍스 하둡 패키지 처럼 한번에 간단하게 설치/관리/모니터링 이 가능하다는 장점이 있음 하지만, NameNode HA 구성, Ubuntu 에 암바리 패키지가 설치가 안된다는 단점이 있음..(해당 내용은 계속 파악중..) 본 작업은 centos 7.9 에서 진행을했으며, ubuntu 를 이용해 설치할 경우 ambari-pkg 세팅때 에러가 나서 설치가 안되었다.. 2. 설치 전 설정 1. 네트워크 설정 Step 1. Hostname : localhost 이외 다..

[HDFS] apache Tez 란?

1. 아파치 테즈란? 우선 Apache Tez는 MapReduce와 동일하게 YARN 기반으로 실행되는 데이터 처리를 위한 프레임워크 Tez도 YARN으로부터 컨테이너를 할당받아서 작업을 수행 기존의 Map Reduce 엔진을 대체하는 새로운 데이터 처리를 위한 엔진 Hive3 로 넘어가면서 공식 엔진으로 채택되어 map reduce 엔진을 대체했다. 2. 왜 대체되었을까? MapReduce 엔진은 하이브 쿼리를 실행시킬 때, 쿼리 속도 문제에 대한 이슈가 많았기 때문에 이로 인하여 새로운 Tez 엔진으로 대체 Tez 엔진으로 쿼리를 돌렸을 때, map reduce 엔진으로 쿼리를 돌렸을 때보다 속도가 월등히 빨랐다 (유스 케이스에서는 30초 정도 빨랐다고 나옴) 3. tez 와 map reduce 는 ..

[ Zookeeper ] 주키퍼(Zookeeper) 에 대한 간단한 스터디

1. Zookeeper 란 ? 분산 시스템 설계시 문제 중 하나는 것은 아래와 같다 분산된 시스템 간에 정보를 어떻게 공유할 것인가 클러스터에 있는 서버들의 상태를 어떻게 체크할 것인가 분산된 서버들 간에 도기화를 위한 락(Lock) 을 어떻게 처리할 것인가 위 문제를 해결하는 시스템을 코디네이션 시스템 이라고 한다. 이를 대표하는 서비스는 Apache Zookeeper 이다. 코디네이션 시스템은 분산 시스템 네이서 중요한 상태 정보나 설정 정보 등을 유지하기 때문에, 코디네이션 서비스의 장애는 전체 시스템의 장애를 유발할 수 있기에, 이중화 등을 통한 고가용성을 제공해서 문제가 발생하지 않게 해야한다. Zookeeper 는 이런 코디네이션 시스템의 이런 특성을 잘 제공하고 있다. Zookeeper 는 ..

[Kafka] 카프카(Kafka) 에 대한 간단 스터디

1. 아파치 카프카란? 대규모로 발생하는 메시지성 데이터를 비동기 방식으로 중계하며, 대규모 트렌젝션 데이터가 발생했을 때, 전송 받는 장소에서 과부하가 걸려 데이터가 손실되지 않도록 중간에 데이터를 버퍼링하면서 타겟 시스템에 안정적으로 데이터를 전송해줄 수 있는 아키텍처를 제공하고 있다. 실시간으로 기록 스트림을 게시, 구독, 저장 및 처리할 수 있는 분산 데이터 스트리밍 플랫폼 여러 소스에서 데이터 스트림을 처리하고 여러 사용자에게 전달하도록 설계 중간에서 데이터를 버퍼링하면서 전송하는 데이터를 타깃 시스템에 안정적으로 전송해주는 중간 시스템의 역할 Pub-Sub 모델의 메시지 큐 분산환경에 특화되어 있음 2. 카프카의 특징 1) 고가용성 및 확장성 카프카는 클러스터로서 작동하며, fault-tole..

[Flume] 아파치 플럼( Flume ) 스터디

1. 아파치 플럼이란? 오픈 소스 프로젝트로 개발된 로그 데이터 수집 기술 여러 서버에 산재해 있는 로그들을 하나의 로그 수집서버로 효과적으로 수집 스트리밍 지향의 데이터 플로우를 기반 로그를 수집하여 중앙 저장소에 적재하여 분석하는 시스템 구축할 때 적합 단순하고 유연한 구조로 다양한 유형의 스트리밍 데이터 플로우 아키텍처 구성 가능 Flume 사용으로 신뢰성, 규모 확장성 및 기능확장성 확보 가능 장애시에도 수집된 로그 유실을 방지 가능 Scale-up / Scale-out 방식의 확장을 모두 지원 새로운 기능을 쉽게 커스터마이징 할 수 있음 2. 플럼의 구성요소 1) 소스(Source) 외부 데이터 소스에 설치되는 에이전트 다양한 원천 시스템의 데이터를 수집하기 위해 Avro, Thrift, JMS..

Presto 에 대하여?

프레스토(Presto)는 페이스북이 개발한 빅 데이터 분석도구로, 분산된 SQL 쿼리 엔진이다. 기존 분석도구인 하이브/맵리듀스에 비해 CPU 효율성과 대기 시간이 10배 빠르다고 알려져 있으며, '최소 비용으로 효율적인 컴퓨팅 인프라를 구축'하자는 오픈컴퓨트 프로젝트의 일부이다. 그리고, TB, PB 단위의 데이터를 분산쿼리(distributed queries)를 사용하여 분석할 수 있는 툴이며, HDFS뿐만 아니라 Hive Warehouse, RDBMS 등 다양한 소스로부터 데이터를 읽어올 수 있다고 한다. 맵 리듀스 잡으로 돌아가는 하이브, 피그와 달리, 프레스토는 별도의 쿼리 실행 엔진이 구현되어 있어 단계별 결과를 쓰지 않고 메모리-> 메모리로 데이터를 전달하는 구조이기 때문에 하이브보다 빠르고..

Apache Sentry : 하둡용 허가(Authorization) 모듈

하둡용 역할(Role)기반 허가(Authorization) 모듈로 하둡 클러스터 내에서 인증된 사용자와 애플리케이션에게 하둡내 저장보관되어 있는 데이터에 대한 권한 제어 기능을 제공하는 서비스이다 현재 Sentry는 Apache Hive, Hive Metastore/HCatalog, Apache Solr, Impla 및 HDFS(Hive 테이블 데이터 파일에 대해서만 제한적으로 지원)과 같은 에코시스템에 대한 권한 모듈 및 하둡 내의 다양한 유형의 데이터 모델에 대한 권한 기능을 제공한다. Sentry가 보초병이란 의미가 있듯이, 하둡 내의 서비스들에 대한 권한을 설정하고 이를 통한 전반적인 보안/인증 절차를 담당하는 서비스라고 보면 될 것 같다. 참고 링크: https://imp51.tistory.co..

하둡 완벽 가이드 스터디 : 챕터 1. 하둡이란?

하둡이란? 분산 환경에서 빅 데이터를 저장하고 처리할 수 있는 자바 기반의 오픈 소스 프레임 워크이다. 빅데이터 인프라 기술 중에 하나로 분산처리를 통해 수많은 데이터를 저장하고 처리하는 기술이다. 왜 하둡을 쓰는가? 관계형 데이터베이스(RDBMS)는 데이터가 증가되면 데이터를 저장하거나 조회할 때 읽기, 쓰기 연산 수행에 제약 조건이 발생되어 서비스가 느려지는 현상이 발생하며, 새로운 업무가 추가되면 데이터베이스 내 데이터는 증가되고 결국 이를 해결하기 위해 하드웨어의 병렬 구성, CPU, 메모리, 네트워크 등 추가적인 인프라 구성을 필요로 하게되어 데이터 관리를 위한 경제적 비용이 계속적으로 증가하게 된다.. 처리해야할 데이터가 많아질수록 컴퓨터의 능력이 좋아져야 하지만, RDBMS 의 경우에는 데이..

하둡 1. 하둡에 대하여

하둡이란? 분산 환경에서 빅 데이터를 저장하고 처리할 수 있는 자바 기반의 오픈 소스 프레임 워크이다. 빅데이터 인프라 기술 중에 하나로 분산처리를 통해 수많은 데이터를 저장하고 처리하는 기술이다. 왜 하둡을 쓰는가? 왜 하둡을 쓰는가? 관계형 데이터베이스(RDBMS)는 데이터가 증가되면 데이터를 저장하거나 조회할 때 읽기, 쓰기 연산 수행에 제약 조건이 발생되어 서비스가 느려지는 현상이 발생하며, 새로운 업무가 추가되면 데이터베이스 내 데이터는 증가되고 결국 이를 해결하기 위해 하드웨어의 병렬 구성, CPU, 메모리, 네트워크 등 추가적인 인프라 구성을 필요로 하게되어 데이터 관리를 위한 경제적 비용이 계속적으로 증가하게 된다.. 처리해야할 데이터가 많아질수록 컴퓨터의 능력이 좋아져야 하지만, RDBM..

반응형