반응형
집계를 수행하려면 키나 그룹을 지정하고 하나 이상의 컬럼을 변환하는 방법을 지정하는 집계함수를 사용
SELECT | 가장 간단한 형태의 그룹화, 집계를 수행해 데이터 프레임의 전체 데이터를 요약 |
GROUP BY | 하나 이상의 키를 지정, 값을 가진 컬럼을 변환하기 위해 다른 집계 함수 사용 |
WINDOW | 하나 이상의 키를 지정할수 있음, 값을 가진 컬럼을 변환하기 위해 다른 집계 함수 사용 가능. 하지만 함수의 입력으로 사용할 로우는 현재 로우와 연관성이 있어야 함 |
GROUP SET | 서로 다른 레벨의 값을 집계할 때 사용. SQL, 데이터프레임의 롤업, 큐브 사용 가능 |
ROLL UP | 하나 이상의 키 지정 가능, 컬럼 변환하는데 다른 집계 함수 사용하여 계층적 요약된 값 구함 |
반응형
'Data Engineering > Spark' 카테고리의 다른 글
[Spark] 스파크 조인 (1) | 2023.11.22 |
---|---|
[Spark] EMR Spark 재시작 하기 (0) | 2022.03.03 |
[ Spark ] 스파크 간단 스터디 7 (0) | 2021.07.18 |
[ Spark ] 스파크 간단 스터디 6 (0) | 2021.07.18 |
[ Spark ] 스파크 간단 스터디 5 (2) | 2021.07.11 |