반응형

Book/스파크를 다루는 기술 4

챕터 6.1 API 는 어디서 찾을까

1) dataframe( dataset ) 메서드 데이터 셋의 하위모듈은 다양한 메서드를 제공 메서드를 사용해 여러 가지 문제를 해결 가능 Column 메서드 alias 나 contains 같이 컬럼과 관련된 여러가지 매서드를 제공 데이터 타입과 관련된 다양한 함수를 제공 val df = spark.read.format(”csv”). option( ). df.printSchema( ) —> 스키마 정보 출력 df.createOrReplaceTempView( “짓고자 하는 테이블 이름”) —> 데이터 프레임 바탕으로 임시 테이블 생성 —> 테이블을 보려면 spark.sql( “쿼리문”) 을 작성해야함 6.2 스파크 데이터 타입으로 변환하기 반드시 알아두어야 하는 방법 데이터 타입 변환은 lit 함수를 사용..

챕터 4. 구조적 API 개요

스파크 구조적 API 에는 다음과 같은 세가지 분산 컬렉션 API 가 존재 DataSet DataFrame SQL 데이터 뷰 구조적 API 는 데이터 흐름을 정의하는 기본 추상화 개념이며, 기본 3가지 개념이 중요하다 타입형 / 비타입형 API 의 개념과 차이점 핵심 용어 스파크가 구조적 API 의 데이터 흐름을 해석하고 클러스터에서 실행하는 방식 DataFrame 과 Dataset 스파크는 DataFrame 과 Dataset 이라는 구조화된 컬렉션을 가지고 있음 잘 정의된 로우와 컬럼을 가지는 분산 테이블 형태의 컬렉션 불변성을 가진다. 스키마 스키마는 데이터프레임의 컬럼명과 데이터 타입을 정의함 데이터 소스에서 얻거나 직접 정의할 수 있음 스파크의 구조적 데이터 타입 개요 실행 계획 수립과 처리에 사..

[스파크] 2. 스파크 함수

1. mean - 객체의 평균값 계산 intIds.mean 2. sum - 객체의 합 계산 intIds.sum 3. stats - 단 한번의 호출로 RDD 요소의 전체 개수, 합계, 평균, 최댓값, 최솟값, 부산, 표준편차를 한꺼번에 계산 intIds.stat 4. histogram - 데이터를 시각화하는데 주로 사용, - x 축에는 데이터 값의 구간(interval) 을 그리고 - y 축에는 각 구간에 해당하는 데이터 밀도나 요소 개수를 그림 - 히스토그램이 제공하는 데이터 분포로 표준편차나 평균값에서 볼수 없는 인사이트 얻을 수 잇음 // 첫번째 버전 // - 구간 경계를 표혀하는 double 값의 배열을 받고, 각 구간에 속한 요소 개수를 담은 Array 객체를 반환 intIds.histogram(..

[스파크] 1. RDD 의 기본 행동 연산자 및 변환 연산자

RDD 는 크게 변환 과 행동 이라는 두 유형으로 나뉨 변환 연산자 : RDD 의 데이터를 조작해 새로운 RDD 를 생성 ( filter, map 함수) 행동 연산자 : 연산자를 호출한 프로그램으로 계산결과를 반환하거나 RDD 요소에 특정 작업을 수행하려고 실제 계산을 시작하는 역할을 함 ( count, foreach 함수) 지연 실행 - 매우 중요한 개념 - 행동 연산자를 호풀하기 전까지는 변환 연산자의 계산을 실행하지 않는 것을 의미 - 행동 연산자를 호출했을 때 무슨 연산이 어떤 순서로 실행되어야 할지 알려주는 일종의 설계도 1. map 변환 연산자 원본 RDD 의 각 요소를 변환한 후 변환된 요소로 새로운 RDD 를 생성하는 연산자 RDD 의 모든 요소에 임의의 함수를 적용할 수 있는 변환 연산자..

반응형