반응형

IT 용어 사전 13

[용어사전] Catalyst optimizer 란?

1. 카탈리스트 엔진이란 Spark SQL의 핵심은 Catalyst Optimizer 이다 이것은 지능형 프로그래밍 언어 기능(예: Scala의 패턴 매칭과 quasi quote 등)을 참신한 방식으로 활용해 확장할 수 있는 쿼리 최적화 프로그램을 구축 2. 용도 Catalyst는 Scala로 쓴 기능성 프로그래밍 구조를 기반으로 하며 다음과 같은 두 가지 용도를 염두에 두고 고안되었다. Spark SQL에 새로운 최적화 기법과 특징을 손쉽게 추가 최적화 프로그램 확장을 위해 외부 개발자 지원(예: 데이터 소스별 규칙 추가, 새로운 데이터 유형 지원 등) Catalyst에는 일반 라이브러리가 포함되어 있어 트리를 나타내고, 규칙을 적용하여 이를 조작한다. 3. 참고 링크 https://databricks..

IT 용어 사전 2022.01.16

데이터베이스 주요 개념 2. Nested loop, Sort Merge, Hash join

1. Nested Loop Join 바깥 테이블의 처리 범위를 하나씩 엑세스하면서 그 추출된 값으로 안쪽 테이블을 조인하는 방식 1) 특징 및 장점 순차적으로 처리 바깥 테이블과 일치하는 값을 안쪽 테이블에서 찾아야 하므로 테이블의 해당 열에 인덱스 필요 메모리 사용량은 가장 적음 선행 테이블의 처리 범위가 전체 일의 양을 결정 좁은 범위에서 유리한 성능을 보여줌 순차적으로 처리하며, Random Access 위주 후행 테이블에는 조인을 위한 인덱스 생성 필요 실행속도 = 선행 테이블 사이즈 * 후행 테이블 접근 횟수 2) 단점 및 주의사항 데이터를 랜덤으로 엑세스하므로 결과 집합이 많으면 속도가 느려짐 join index 가 없거나, 조인 집합을 구성하는 검색 조건이 조인 범위를 줄이지 못할 경우 비효..

IT 용어 사전 2021.06.10

데이터 베이스 주요 개념 01. 샤딩, 파티셔닝

샤딩과 파티셔닝은 데이터를 저장하는 방법론에 대한 것으로 보면된다.. 데이터를 어떻게 쪼개고 저장하느냐에 따라서 데이터를 읽어들이는 성능에 차이가 날 수 있기 때문이다. 샤딩과 파티셔닝에 대한 개념을 잘 정리한 블로그들이 있어 나중에 다시 해당 개념을 참고할 때 다시 들어가서 봐야겠다. 한마디로, 샤딩 = 호라이즌 파티셔닝 으로 보면 쉽다.... 참고링크 nesoy.github.io/articles/2018-05/Database-Shard Database의 샤딩(Sharding)이란? nesoy.github.io https://zetastring.tistory.com/338 샤딩 vs 파티셔닝 (Sharding vs Partitioning) 분산데이터베이스의 개념이 나오면서 데이터를 잘개 쪼개놓는 아키텍..

IT 용어 사전 2020.06.22
반응형