개인적으로 인강과 사이드 프로젝트를 들으면서 AWS 에서 사용하게되는
서비스들에 대해서 간단하게 기록하고자 한다.
나중에 내가 반드시 다시 사용할 것들이기 때문에 추후에 어떤 것인지
다시 인지하고 어떤 서비스가 효율적일지 선택하기 위해서이다.
가장 좋은 글이 있어 링크 참고한다 꼭 읽어야 겠다 틈틈히..
https://bunjang.github.io/back-end/2019/03/11/bunjang-athena.html
1. Athena 란?
AWS 에 따르면, Athena 는 Amazons S3(simple storage service) 에서 표준 SQL 을 사용하여 데이터를 쉬게 바로 분석할 수 있는 대화형 쿼리 서비스라고 한다. Amazon S3 에 저장된 데이터에서 Athena 를 가리키고 , 표준 SQL 을 사용하여 임시 쿼리를 실행하고 몇 초 안에 결과를 얻을 수 있다.
쉽게 말하면, Amazon S3 스토리지에 저장된 다양한 포맷의 기초 데이터( csv, tsv, txt, CRC, Parquet 형식의 데이터들)에 대해 바로 표준 SQL 문을 사용해 데이터를 검색 및 분석할 수 있는 서비스인 것이다.
2. 어떤 때 Athena 를 써야하는지?
AWS 에 따르면, Athena는 Amazon S3에 저장된 비정형, 반정형 및 정형 데이터를 분석하는 데 도움을 준다. 예를 들면 CSV, JSON 또는 컬럼 방식 데이터 형식(예: Apache Parquet 및 Apache ORC)이 해당되며(그래서 인강에서 JSON 이랑 Parquet 형식으로 저장을 했나보다..) , Athena을(를) 사용하면 데이터를 집계하거나 Athena(으)로 로드할 필요 없이 ANSI SQL을 사용한 임의 쿼리를 실행할 수 있다
또한, Athena는 간편한 데이터 가상화를 위해 Amazon QuickSight와 통합되며, JDBC 또는 ODBC 드라이버를 통해 연결된 비즈니스 인텔리전스 도구 또는 SQL 클라이언트로 데이터를 탐색할 수 있다.
3. 장점
1) 페타바이트 규모의 데이터(대용량의 데이터)에 대해 표준 SQL 문에 기반한 질의를 수행할 수 있다.
2) 데이터 소스에 대응하는 테이블 메타 정보만 생성하면 바로 쿼리를 수행할 수 있으며, 쿼리 수행 속도가 매우 빠르다
3) 서버리스 서비스이기 때문에 인프라를 관리하지 않아도 된다. 즉, 이미 aws 에 다 갖춰져 있어서 인프라 셋팅, 관리등이 필요없다.
4. 가격
매번 쿼리를 수행할 때 스캔하는 데이터의 양에 따라 과금되며, 미리 서버를 준비할 필요가 없어 고정 비용이 발생하지 않습니다. 비용은 S3에서 스캔하는 데이터 1TB당 5 달러이다.
참고 링크
https://docs.aws.amazon.com/ko_kr/athena/latest/ug/what-is.html
https://aws.amazon.com/ko/blogs/korea/amazon-athena-sql-compatible-query-series/
https://americanopeople.tistory.com/131
'AWS' 카테고리의 다른 글
AWS Presto (0) | 2020.06.07 |
---|---|
AWS 사용시 주의사항 - 과금 관련 사항 (0) | 2020.05.31 |
aws_summit 01. SQL 로 머신러닝하기 (0) | 2020.05.13 |
1. aws glue (0) | 2020.05.10 |
aws error 1 : colud not connect to rds (0) | 2020.05.04 |