반응형
1. mean
- 객체의 평균값 계산
intIds.mean
2. sum
- 객체의 합 계산
intIds.sum
3. stats
- 단 한번의 호출로 RDD 요소의 전체 개수, 합계, 평균, 최댓값, 최솟값, 부산, 표준편차를 한꺼번에 계산
intIds.stat
4. histogram
- 데이터를 시각화하는데 주로 사용,
- x 축에는 데이터 값의 구간(interval) 을 그리고
- y 축에는 각 구간에 해당하는 데이터 밀도나 요소 개수를 그림
- 히스토그램이 제공하는 데이터 분포로 표준편차나 평균값에서 볼수 없는 인사이트 얻을 수 잇음
// 첫번째 버전
// - 구간 경계를 표혀하는 double 값의 배열을 받고, 각 구간에 속한 요소 개수를 담은 Array 객체를 반환
intIds.histogram(Array(1.0, 50.0, 100.0))
res: Array[Long] = Array(9, 5)
// 두번재 버전
// - 구간 개수를 받아 이것으로 입력 데이터의 전체 범위를 균등하게 나눈 후 요소 두개로 구성된
// 튜플 하나를 결과로 반환
intIds.histogram(3)
res: (Array[Double], Array[Long]) = (Array(15.0, 42.3333, 70.3333, 98.0), Array(9,0,5))
5. sumApprox, meanApprox
- 스파크가 실험적으로 제공하는 메서드
- 지정된 제한 시간 동안 근사 합계, 근사 평균을 계산
- 밀리초 단위의 제한시간을 인자로 받아 메서드가 실행될 최대 시간 결정
- 제한 시간 안에 결과를 반환하지 못할 경우 제한시간이 끝난 시점 까지 계산한 중간 결화 반환
- confidence 이잔느 반환될 겨로가 값에 영향을 줌
sumApprox(timeout:Long, confidence; Double = 0.95) : PartialResult[BoundedDouble]
meanApprox(timeout:Long, confidence; Double = 0.95) : PartialResult[BoundedDouble]
- finalValue 필드와 failure 필드로 구성된 PartialResult 객체를 결과로 반환
- finalValue 는 BoundedDouble 타입의 객체로 단일 결과 값이 아닌 값의 확률 범위, 평균값, 신뢰수준 제공
반응형
'Book > 스파크를 다루는 기술' 카테고리의 다른 글
챕터 6.1 API 는 어디서 찾을까 (0) | 2022.05.30 |
---|---|
챕터 4. 구조적 API 개요 (0) | 2022.04.18 |
[스파크] 1. RDD 의 기본 행동 연산자 및 변환 연산자 (0) | 2022.01.22 |