반응형

spark 6

[스파크] 2. 스파크 함수

1. mean - 객체의 평균값 계산 intIds.mean 2. sum - 객체의 합 계산 intIds.sum 3. stats - 단 한번의 호출로 RDD 요소의 전체 개수, 합계, 평균, 최댓값, 최솟값, 부산, 표준편차를 한꺼번에 계산 intIds.stat 4. histogram - 데이터를 시각화하는데 주로 사용, - x 축에는 데이터 값의 구간(interval) 을 그리고 - y 축에는 각 구간에 해당하는 데이터 밀도나 요소 개수를 그림 - 히스토그램이 제공하는 데이터 분포로 표준편차나 평균값에서 볼수 없는 인사이트 얻을 수 잇음 // 첫번째 버전 // - 구간 경계를 표혀하는 double 값의 배열을 받고, 각 구간에 속한 요소 개수를 담은 Array 객체를 반환 intIds.histogram(..

[Spark Error] Unable to find encoder for type XXX

1. 에러 원인 간혹 raw 데이터를 case class 로 정의해서 spark dataset으로 인코딩 시 발생할 수 있음 나의 경우에는 jupyter 로 한 셀에 동시에 정의를 해주려해서 생긴 에러였음 2. 해결방법 case class 를 맨 앞에 위치시키면 해결이 된다는 것을 듣고, 이를 바꾸어 case class 를 다른 셀로 분리시켰음 해결 완료 3. 참고 링크 https://knight76.tistory.com/entry/spark-Unable-to-find-encoder-for-type-XXX-%ED%95%B4%EA%B2%B0%ED%95%98%EA%B8%B0 [spark] Unable to find encoder for type XXX 해결하기 rawdata를 case class로 정의해서 ..

[Spark] 스파크 간단 스터디 2

1. 스파크 운영용 애플리케이션 Spark-submit 명령을 사용해 대화형 셀에서 개발한 프로그램을 운영용 애플리케이션으로 쉽게 전환 가능 해당 명령은 애플리케이션 코드를 클러스터에 전송해 실행시키는 역할 2. Dataset 타입 안정성을 제공하는 구조적 api 정적 타입 코드를 지원하기 위해 고안된 스파크의 구조적 api 타입안정성을 지원하며 동적 타입 언어인 파이썬과 R 에선 사용 불가 3. 구조적 스트리밍 스트림 처리용 고수준 api 배치모드의 연산을 스트리밍 방식으로 실행할 수 있으며, 지연 시간을 줄이고 증분 처리할 수 있음 배치 처리용 코드를 일부 수정하여 스트리밍 처리를 수행하고 값을 빠르게 얻을 수 있는 장점 존재 스트리밍은 트리거가 실행된 다음 데이터를 갱신하게될 인메모리 테이블에 데이..

[Spark] 스파크에 대한 간단 스터디 1

1. 스파크란 스파크는 통합 컴퓨팅 엔진이며, 클러스터 환경에서 데이터를 병렬로 처리하는 라이브러리 집합. 널리 쓰이는 언어(파이썬, 자바,스칼라,R) 을 지원하며 SQL 뿐만 아니라 스트리밍, 머신러닝에 이르기까지 넓은 범위의 라이브러리를 제공한다. 2. 스파크의 특징 HDFS 사용 – 하둡의 파일시스템 기반 동작 직관적 이해 – 스칼라 기반 최소화 코드로 작성 RDD – RDD 단위로 데이터 연산을 수행 3. 스파크 철학 1) 통합 간단한 데이터 읽기부터 SQL 처리, 머신러닝 그리고 스트림 처리에 이르기까지 다양한 데이터 분석작업을 같은 연산 엔진과 일관성있는 API 로 수행할 수 있도록 설계. 2) 컴퓨팅 엔진 통합관점의 중시하면서 기능의 범위를 컴퓨팅 엔진으로 제한, 그 결과 저장소 시스템의 데..

[Python Error] 'TypeError: an integer is required (got type bytes)'

1. 에러 원인 Spark 2.4.x 버전은 아직 파이썬 3.8 버전을 지원하지 않는다고 한다. 그것때문에 위 에러가 발생하는 것이다 2. 해결 방법 해결방법에는 몇가지가 있으나 가장 많이 나오는 방법은 파이썬을 3.7 버전으로 다운그레이드 시키는 방법이다. conda 의 경우에는 conda 의 명령어를 사용하여 파이썬 을 다운그레이드 시킬 수 있지만 일반 파이썬의 경우에는 그런것을 찾기가 어려워서 나의 경우에는 그냥 파이썬 3.8을 3.7 버전을 다시 설치해주었더니 정상으로 실행이 되었다. 3. 참고 링크 https://stackoverflow.com/questions/58700384/how-to-fix-typeerror-an-integer-is-required-got-type-bytes-error-w..

반응형