Data Engineering/NiFi

[ NiFi ] 8. NiFi Altanative & Competitors

쟈누이 2021. 5. 21. 14:11
반응형

 

 

1. 개요


NiFi 에 대해서 잘 파악하려면 NiFi 의 대체재들과 경쟁자들에 대해서 어느정도는 숙지를 하고 있는 것이 좋을 것 같다.

지금까지 NiFi 에 대해 공부하면서 NiFi 는 하나의 이벤트 스케쥴러 같다는 것이다.

아래의 특징은 G2.com 에서 각 플랫폼에 대한 리뷰와 정보를 참고하여 정리했다.

 

순위는 이 부분을 클릭하면 된다

 

 

 

2. Altanative & Competitors


#1 snaplogic Intelligent Integration Platform(IIP)

  • 어플리케이션 또는 데이터 소스 빌드를 위한 통합 구성요소의 모듈러 컬렉션
  • self-service-integration 분야의 선두를 달리고 있음
  • 어플리케이션, 데이터, APIs 간의 년결을 쉽고 빠르게 만들어주는 플랫폼을 지향
  • 어도비, 아스트라제네카 게임스톱 등의 해외 기업들이 사용중
  • 로딩 타임이 길다는 단점이 존재
  • UI 는 개선되야할 필요가 있음
  • CPU 요구사항이 높은 편이며 이는 인프라스트럭처 비용을 증가시킬 수 있음

 

#2 IBM InfoSphere DataStage

  • 멀티플 기업 시스템들에 걸친 데이터 통합 ETL 플랫폼 분야의 선두
  • 클라우드와 온프레임스에서도 높은 퍼포먼스를 자랑함
  • 여러 다른 종류들로 이루어진 에이터들을 통합할 수가 있는 높은 확장성을 지닌 플랫폼
  • USER-Friendly 한 플랫폼
  • 하지만, 다른 ETL Tool 들에 비해서 높은 비용

 

#3 Azure Data Factory

  • 개발자들에게 친화적인 서비스 환경
  • 온프레미스 환경 및 클라우드 Azure Storage&database 에서 접속이 가능
  • 몇번의 단계와 클릭을 거치면 다양한 Azure 서비스 통합한 ETL activities 를 만들 수 있음
  • 사용에 편리하지가 않고, documentation 이 읽기가 어려움. 

 

 

#4 Talend Big Data Platform

  • 그래픽 툴과 자동 코드 생성 기능이 들어있어 데이터 통합을 쉽게 할 수 있음
  • 아파치 하둡, 스파크, 스파크 스트리밍, NoSql 데이터베이스와 연동하여 사용 가능
  • high scale, in-memory fast data processing 이 장점
  • Git 연동 기능이 향상되야할 필요성이 있음
  • 직관적이지 않음
  • Talend Cloud 환경은 개선되어야할 여지가 많음

 

#5 Pentaho Data Integration

  • 어떠한 데이터 소스로부터 유저들이 데이터 통합, 혼합, 정제가 가능
  • 코딩과 복잠성을 없앤 비쥬얼 도구
  • 대용량의 데이터를 처리하기 위한 툴들이 이미 구성되어 있어 개발자에게 편리한 플랫폼
  • 커뮤니티가 활성화되어있지 않아서 참고 예시를 찾기가 힘듬

 

#6 AWS Glue

  • ETL 전과정을 한번에 관리할수 있음
  • 유저들이 직접 프로세스를 구현하기가 쉬움
  • 솔루션들이 이용하기가 매우 쉬움
  • 하지만, 사용량에 따라 비용이 많이 청구될 수 있음
  • 다른 서비스들에 비해 유저 친화적이지가 않음
  • 개발자들의 코딩이 필요하기도 하고 디버깅이 어려움 

 

 

#7 Informatica PowerCenter

  • 정제되지 않은 데이터를 정제하여 가공하여 출력하는 end-to-end 서비스를 지향
  • 직관적 인터페이스와 심플한 실행기능
  • CS 가 괜찮음
  • 비용이 매우 높은 편임
  • 추가적인 기능을 사용하기 위해서는 추가적인 비용을 지불해야함.
  • BLOB and CLOB data type 을 다루기가 힘듦

 

#8 Qubole

  • 머신러닝, 에드혹 분석, 스트리밍 등을 위한 데이터 레이크를 제공하는 오픈 데이터 레이크 회사
  • 쿼블은 유연하고 합리적인 비용으로 자사 플랫폼을 제공하고 있음
  • end to end 서비스를 제공하고있음
  • 서비스 자체가 사용하기 쉬운 장점
  • 플랫폼 내 자원을 효율적으로 사용할 수 있음
  • 하이브, 스파크, 프레스토와같은 서비스도 사용이 가능한 확장성
  • 하지만, 중복되어 있는 서비스가 존재함

 

#11 Fivetran

  • 데이터 분석쪽 수요에 맞춘 데이터 ETL 플랫폼
  • 몇몇 커넷션들이 데이터를 잘 추출하지 못하는 문제 발생

 

#12 Workato

  • 다수의 비즈니스 유저들이 사용할 수 있는 지능적인 자동화 플랫폼
  • 코딩을 할 필요가 없이 서비스를 쉽게 이용 가능
  • 전통적인 플랫폼에 비해 10배 이상의 빠른 성능을 지닌 프로세스 구축 가능
  • 전세계적으로 7000개이상의 브랜드들이 사용중
  • 환경 설정, 디버깅등이 편함
  • 러닝 커브가 가파르다(배우기가 좀 어렵다)

 

 

#16 Logstash

  • 어떠한 소스로부터 들어오는 데이터 처리 가능
  • 모든 타입의 데이터 처리를 중앙화하였음
  • 스키마, 포맷 분류를 일반화함
  • 몇몇 케이스에서는 적절한 syntax 사용이 불가함
  • 무료 오픈 소스
  • 환경설정이 좀 어려운 편이다.

 

 

 

 

3. 참고링크


https://www.g2.com/products/logstash/reviews

 

 

 

 

 

 

 

반응형