반응형

Apache 4

[Spark] 스파크에 대한 간단 스터디 1

1. 스파크란 스파크는 통합 컴퓨팅 엔진이며, 클러스터 환경에서 데이터를 병렬로 처리하는 라이브러리 집합. 널리 쓰이는 언어(파이썬, 자바,스칼라,R) 을 지원하며 SQL 뿐만 아니라 스트리밍, 머신러닝에 이르기까지 넓은 범위의 라이브러리를 제공한다. 2. 스파크의 특징 HDFS 사용 – 하둡의 파일시스템 기반 동작 직관적 이해 – 스칼라 기반 최소화 코드로 작성 RDD – RDD 단위로 데이터 연산을 수행 3. 스파크 철학 1) 통합 간단한 데이터 읽기부터 SQL 처리, 머신러닝 그리고 스트림 처리에 이르기까지 다양한 데이터 분석작업을 같은 연산 엔진과 일관성있는 API 로 수행할 수 있도록 설계. 2) 컴퓨팅 엔진 통합관점의 중시하면서 기능의 범위를 컴퓨팅 엔진으로 제한, 그 결과 저장소 시스템의 데..

[Kafka] 카프카(Kafka) 에 대한 간단 스터디

1. 아파치 카프카란? 대규모로 발생하는 메시지성 데이터를 비동기 방식으로 중계하며, 대규모 트렌젝션 데이터가 발생했을 때, 전송 받는 장소에서 과부하가 걸려 데이터가 손실되지 않도록 중간에 데이터를 버퍼링하면서 타겟 시스템에 안정적으로 데이터를 전송해줄 수 있는 아키텍처를 제공하고 있다. 실시간으로 기록 스트림을 게시, 구독, 저장 및 처리할 수 있는 분산 데이터 스트리밍 플랫폼 여러 소스에서 데이터 스트림을 처리하고 여러 사용자에게 전달하도록 설계 중간에서 데이터를 버퍼링하면서 전송하는 데이터를 타깃 시스템에 안정적으로 전송해주는 중간 시스템의 역할 Pub-Sub 모델의 메시지 큐 분산환경에 특화되어 있음 2. 카프카의 특징 1) 고가용성 및 확장성 카프카는 클러스터로서 작동하며, fault-tole..

[Flume] 아파치 플럼( Flume ) 스터디

1. 아파치 플럼이란? 오픈 소스 프로젝트로 개발된 로그 데이터 수집 기술 여러 서버에 산재해 있는 로그들을 하나의 로그 수집서버로 효과적으로 수집 스트리밍 지향의 데이터 플로우를 기반 로그를 수집하여 중앙 저장소에 적재하여 분석하는 시스템 구축할 때 적합 단순하고 유연한 구조로 다양한 유형의 스트리밍 데이터 플로우 아키텍처 구성 가능 Flume 사용으로 신뢰성, 규모 확장성 및 기능확장성 확보 가능 장애시에도 수집된 로그 유실을 방지 가능 Scale-up / Scale-out 방식의 확장을 모두 지원 새로운 기능을 쉽게 커스터마이징 할 수 있음 2. 플럼의 구성요소 1) 소스(Source) 외부 데이터 소스에 설치되는 에이전트 다양한 원천 시스템의 데이터를 수집하기 위해 Avro, Thrift, JMS..

[ NiFi ] 3. NiFi 튜토리얼

1. 개요 추후 회사 프로젝트에 대비해 NiFi 사용법에 대해 공부중이다. 공부하면서 익힌 부분들을 추후 다시 복습하기 위해 블로그에 남겨본다. 우선 앞의 과정을 통해 NiFi 를 설치했다는 가정 하에 진행한다. 그리고 전체적인 튜토리얼 진행은 kwangsiklee 님의 블로그 에서 발췌한 내용의 흐름을 따라가고 있으며, 발생한 상황에 따라 일부를 좀 더 추가해 보강했다. 2. NiFi 테스트 NiFi에서 이벤트를 받아 Flow File 을 생성하는 모습을 확인한다. Tailing 프로세스를 만들어 실제 Tailing 된 Flow File 을 볼 예정이다 1) Processor 추가하기 특정 파일 Tailing 을 위해 TagFile 프로세스를 추가한다. nifi의 경우 특정 프로세스를 만들고 싶은 경우..

반응형