'Book/스파크를 다루는 기술' 카테고리의 글 목록

챕터 6.1 API 는 어디서 찾을까

1) dataframe( dataset ) 메서드 데이터 셋의 하위모듈은 다양한 메서드를 제공 메서드를 사용해 여러 가지 문제를 해결 가능 Column 메서드 alias 나 contains 같이 컬럼과 관련된 여러가지 매서드를 제공 데이터 타입과 관련된 다양한 함수를 제공 val df = spark.read.format(”csv”). option( ). df.printSchema( ) —> 스키마 정보 출력 df.createOrReplaceTempView( “짓고자 하는 테이블 이름”) —> 데이터 프레임 바탕으로 임시 테이블 생성 —> 테이블을 보려면 spark.sql( “쿼리문”) 을 작성해야함 6.2 스파크 데이터 타입으로 변환하기 반드시 알아두어야 하는 방법 데이터 타입 변환은 lit 함수를 사용..

Book/스파크를 다루는 기술 2022.05.30

챕터 4. 구조적 API 개요

스파크 구조적 API 에는 다음과 같은 세가지 분산 컬렉션 API 가 존재 DataSet DataFrame SQL 데이터 뷰 구조적 API 는 데이터 흐름을 정의하는 기본 추상화 개념이며, 기본 3가지 개념이 중요하다 타입형 / 비타입형 API 의 개념과 차이점 핵심 용어 스파크가 구조적 API 의 데이터 흐름을 해석하고 클러스터에서 실행하는 방식 DataFrame 과 Dataset 스파크는 DataFrame 과 Dataset 이라는 구조화된 컬렉션을 가지고 있음 잘 정의된 로우와 컬럼을 가지는 분산 테이블 형태의 컬렉션 불변성을 가진다. 스키마 스키마는 데이터프레임의 컬럼명과 데이터 타입을 정의함 데이터 소스에서 얻거나 직접 정의할 수 있음 스파크의 구조적 데이터 타입 개요 실행 계획 수립과 처리에 사..

Book/스파크를 다루는 기술 2022.04.18

[스파크] 2. 스파크 함수

1. mean - 객체의 평균값 계산 intIds.mean 2. sum - 객체의 합 계산 intIds.sum 3. stats - 단 한번의 호출로 RDD 요소의 전체 개수, 합계, 평균, 최댓값, 최솟값, 부산, 표준편차를 한꺼번에 계산 intIds.stat 4. histogram - 데이터를 시각화하는데 주로 사용, - x 축에는 데이터 값의 구간(interval) 을 그리고 - y 축에는 각 구간에 해당하는 데이터 밀도나 요소 개수를 그림 - 히스토그램이 제공하는 데이터 분포로 표준편차나 평균값에서 볼수 없는 인사이트 얻을 수 잇음 // 첫번째 버전 // - 구간 경계를 표혀하는 double 값의 배열을 받고, 각 구간에 속한 요소 개수를 담은 Array 객체를 반환 intIds.histogram(..

Book/스파크를 다루는 기술 2022.01.23

[스파크] 1. RDD 의 기본 행동 연산자 및 변환 연산자

RDD 는 크게 변환 과 행동 이라는 두 유형으로 나뉨 변환 연산자 : RDD 의 데이터를 조작해 새로운 RDD 를 생성 ( filter, map 함수) 행동 연산자 : 연산자를 호출한 프로그램으로 계산결과를 반환하거나 RDD 요소에 특정 작업을 수행하려고 실제 계산을 시작하는 역할을 함 ( count, foreach 함수) 지연 실행 - 매우 중요한 개념 - 행동 연산자를 호풀하기 전까지는 변환 연산자의 계산을 실행하지 않는 것을 의미 - 행동 연산자를 호출했을 때 무슨 연산이 어떤 순서로 실행되어야 할지 알려주는 일종의 설계도 1. map 변환 연산자 원본 RDD 의 각 요소를 변환한 후 변환된 요소로 새로운 RDD 를 생성하는 연산자 RDD 의 모든 요소에 임의의 함수를 적용할 수 있는 변환 연산자..

Book/스파크를 다루는 기술 2022.01.22

쟈누이의 기록습관

Book/스파크를 다루는 기술 4

티스토리툴바