Book/스파크를 다루는 기술

[스파크] 2. 스파크 함수

쟈누이 2022. 1. 23. 17:15
반응형

 

 

 

1.  mean

- 객체의 평균값 계산

intIds.mean

 

2. sum

- 객체의 합 계산

intIds.sum

 

3. stats

- 단 한번의 호출로 RDD 요소의 전체 개수, 합계, 평균, 최댓값, 최솟값, 부산, 표준편차를 한꺼번에 계산

intIds.stat

 

4. histogram

- 데이터를 시각화하는데 주로 사용, 

- x 축에는 데이터 값의 구간(interval) 을 그리고

- y 축에는 각 구간에 해당하는 데이터 밀도나 요소 개수를 그림

- 히스토그램이 제공하는 데이터 분포로 표준편차나 평균값에서 볼수 없는 인사이트 얻을 수 잇음

// 첫번째 버전
// - 구간 경계를 표혀하는 double 값의 배열을 받고, 각 구간에 속한 요소 개수를 담은 Array 객체를 반환
intIds.histogram(Array(1.0, 50.0, 100.0))
res: Array[Long] = Array(9, 5)

// 두번재 버전
// - 구간 개수를 받아 이것으로 입력 데이터의 전체 범위를 균등하게 나눈 후 요소 두개로 구성된
// 튜플 하나를 결과로 반환
intIds.histogram(3)
res: (Array[Double], Array[Long]) = (Array(15.0, 42.3333, 70.3333, 98.0), Array(9,0,5))

 

 

5. sumApprox, meanApprox

- 스파크가 실험적으로 제공하는 메서드

- 지정된 제한 시간 동안 근사 합계, 근사 평균을 계산

- 밀리초 단위의 제한시간을 인자로 받아 메서드가 실행될 최대 시간 결정

- 제한 시간 안에 결과를 반환하지 못할 경우 제한시간이 끝난 시점 까지 계산한 중간 결화 반환

- confidence 이잔느 반환될 겨로가 값에 영향을 줌

sumApprox(timeout:Long, confidence; Double = 0.95) : PartialResult[BoundedDouble]
meanApprox(timeout:Long, confidence; Double = 0.95) : PartialResult[BoundedDouble]

- finalValue 필드와 failure 필드로 구성된 PartialResult 객체를 결과로 반환

- finalValue 는 BoundedDouble 타입의 객체로 단일 결과 값이 아닌 값의 확률 범위, 평균값, 신뢰수준 제공

반응형