클라우드

[클라우드] Redshift / Snowflake 비교

쟈누이 2024. 2. 20. 15:50
반응형

 

1. Redshift


  • Redshift는 비즈니스 인텔리전스(BI) 도구와 원할하게 통합 될 수 있는 Managed형 클라우드 데이터웨어 하우스 서비스
  • Redshift 클러스터로 알려진 노드 그룹을 사용함
  • 데이터 세트의 크기에 관계없이 동일한 SQL 기반 도구 및 BI 솔루션을 사용하여 빠른 쿼리 성능 이용 가능

 

 

2. BigQuery


  • Google BigQuery는 Google의 자체 데이터웨어 하우징 솔루션
  • Dremel이라는 구글에서 개발한 강력한 쿼리 엔진을 이용하여 매우 큰 데이터 세트에서 SQL과 같은 유사한 쿼리를 실행하고 단 몇 초만에 정확한 결과를 얻을 수 있다고 함

 

 

 

 

3. Snowflake


  • 관계형 데이터베이스 관리 시스템이며, SaaS(Software-as-a-Service) 모델로 제공되는 구조화된 데이터와 반 구조화된 데이터 모두를 지원하는 데이터웨어 하우스
  • 기존 데이터베이스 또는 빅 데이터 소프트웨어 플랫폼(e.g. Hadoop)위에 구축되지 않으며 클라우드 용으로 설계된 고유한 아키텍처가 존재하는 SQL 데이터베이스 엔진을 사용합니다.
  • Snowflake는 빠르고 사용자 친화적이며 기존 데이터웨어 하우스보다 더 많은 유연성을 제공
  • Redshift 와 많은 유사점이 있다고 함
  • Snowflake Elastic Data Warehouse의 형태로 클라우드 기반 데이터 스토리지 및 분석을 제공하며, 사용자는 클라우드 기반 하드웨어 및 소프트웨어를 사용하여 데이터를 분석하고 저장 할 수 있음
  • 물리 데이터는 Amazon S3에 저장되며, Snowflake ETL을 사용하는 경우 Hadoop과 같은 기술을 사용하지 않고도 퍼블릭 클라우드 시스템을 활용 가능

 

 

 

4. 기능 비교


Computing Layer

  • BigQuery: 분산 컴퓨팅에서 실행됩니다. Google이 제공하는 각 데이터센터의 Borg에서 실행됩니다.
  • Redshift: AWS 가상 머신에서 실행되는 ParAccel의 독점 포크 (부분적으로 Postgres에서 포크됨), Postgres라고 하나 많이 다름
  • SnowFlake: 클라우드(AWS, GCP, Azure)의 가상머신에서 실행되는 Intelligent Predicate Pushdown + Smart Caching이 포함된 독점 컴퓨팅 엔진이고 C-Store, MonetDB에서 영감을 얻은 하이브리드 컬럼 시스템

Storage Layer

Redshift, BigQuery, Snowflake 모두 Hot/Warm/Cold 스토리지를 구현합니다.

  • Big Query: 독점적이며 ColumnIO를 스토리지 형식으로 사용하고 Colossus 파일 시스템에 저장됩니다. 분산 컴퓨팅과 스토리지를 완전히 분리합니다.
  • Redshift: 독점적이지만 일반적으로 SSD(dc1, dc2) / HDD (ds1, ds2) 또는 독점 컬럼 형식을 사용하는 S3기반 (RA3)을 포함하여 혼합됩니다 RA3는 컴퓨팅과 스토리지를 분리하는 반면에 다른 모든 노드 유형은 컴퓨팅과 스토리지를 함께 지역화합니다.
  • Snowflake: 원하는 클라우드의 컴퓨팅/객체 스토리지에서 실행되는 메모리/SSD/객체 저장소의 독점적인 Row 형식으로 제공하며 메타 데이터 캐싱을 사용하여 PAX(하이브리드 컬럼 형식)로 저장됩니다.

Compression

  • BigQuery: ColumnIO 열 형식으로 처리되는 독점 압축입니다. BigQuery는 지속적으로 내부에서 데이터를 압축하지만 압축되지 않은 바이트를 스캔하는 것처럼 쿼리 요금이 청구됩니다.
  • Redshift: Redshift는 LZO, ZStandard와 같은 개방형 알고리즘을 구현하여 투명한 압축을 달성합니다. 최근에 자체 독점 압축 알고리즘(AZ64)을 출시했지만 데이터 유형 선택이 제한적입니다. 열을 압축할 방법을 선택할 수 있습니다. Analyze Compression은 쿼리 패턴과 열에 저장하려는 데이터에 따라 압축 방식을 선택하는 것이 가장 좋습니다.
  • SnowFlake: 자체 압축 레이어를 제공합니다. BigQuery와 달리 스캔한 바이트에 대해서는 요금이 청구되지 않지만 쿼리 플래너가 압축 및 테이블 통계를 활용하여 더 적은 데이터를 스캔하기에 컴퓨팅 비용을 줄일 수 있습니다.
반응형

'클라우드' 카테고리의 다른 글

클라우드 아키텍트 / 클라우드 엔지니어 차이  (0) 2024.03.07