[Spark] 스파크 간단 스터디 3
·
Data Engineering/Spark
CHAPTER 8. 조인¶ 다양한 데이터셋 조합으로 조인은 거의 모든 스파크 작업에 필수 8.1 조인표현식¶ 키값을 비교하여 데이터셋과 오른쪽 데이터 셋의 결합여부를 결정하는 조인 표현식의 평가 결과에 따라 두개의 데이터 셋을 조인 가장 많이 사용하는 조인 : 동등 조인(왼.오른쪽 데이터셋에 지정된 키가 동일한지 비교) 일치하는 키가 없는 로우는 조인에 포함시키지 않음 복합 데이터 타입을 조인에 사용할 수 있음 8.2 조인 타입¶ 데이터셋에 어떤 데이터가 있어야 하는지 결정 In [1]: //스칼라 코드 val person = Seq( (0, "Bill Chambers", 0, Seq(100)), (1, "Matei Zaharia", 1, Seq(500, 250, 100)), (2, "Michael Ar..