Data Engineering/Spark

[Spark] 스파크 집계연산 정리 1

쟈누이 2023. 11. 22. 00:44
반응형

집계를 수행하려면 키나 그룹을 지정하고 하나 이상의 컬럼을 변환하는 방법을 지정하는 집계함수를 사용

 

SELECT 가장 간단한 형태의 그룹화, 집계를 수행해 데이터 프레임의 전체 데이터를 요약
GROUP BY 하나 이상의 키를 지정, 값을 가진 컬럼을 변환하기 위해 다른 집계 함수 사용
WINDOW 하나 이상의 키를 지정할수 있음, 값을 가진 컬럼을 변환하기 위해 다른 집계 함수 사용 가능. 하지만 함수의 입력으로 사용할 로우는 현재 로우와 연관성이 있어야 함
GROUP SET 서로 다른 레벨의 값을 집계할 때 사용. SQL, 데이터프레임의 롤업, 큐브 사용 가능
ROLL UP 하나 이상의 키 지정 가능, 컬럼 변환하는데 다른 집계 함수 사용하여 계층적 요약된 값 구함

 

반응형

'Data Engineering > Spark' 카테고리의 다른 글

[Spark] 스파크 조인  (1) 2023.11.22
[Spark] EMR Spark 재시작 하기  (0) 2022.03.03
[ Spark ] 스파크 간단 스터디 7  (0) 2021.07.18
[ Spark ] 스파크 간단 스터디 6  (0) 2021.07.18
[ Spark ] 스파크 간단 스터디 5  (2) 2021.07.11