브로드캐스트 해시 조인
절차
-> 디멘션 테이블(작은 테이블)을 먼저 해시 테이블로 만듦
-> 해당 해시 테이블의 값을 각 팩트 테이블(큰 테이블) 파티션에 뿌려줌
-> 각 파티션 내부에서 조인을 진행함. 셔플 과정이 없기 때문에 비용 절감
아래 링크에 브로드캐스트 해시 조인을 사용하는 사례를 들어 설명하는 부분이 있음
참고 https://eyeballs.tistory.com/248
브로드 캐스트 조인은 작은 데이터를 작업자 노드로 복사하므로 매우 효율적이며 초고속 조인이 가능합니다. 우리가 두 개의 데이터 세트에 합류하고 하나의 데이터 세트가 다른 데이터 세트보다 훨씬 작 으면 (예 : 작은 데이터 세트가 메모리에 맞을 수있는 경우), 우리는 브로드 캐스트 해시 결합을 사용해야합니다. 다음 이미지는 Large DataSet의 각 파티션에 작은 데이터 세트가 브로드 캐스트 해시 조인을 시각화합니다. |
출처 :
https://riptutorial.com/ko/apache-spark/example/25482/spark%EC%9D%98-broadcast-hash-join
'Spark' 카테고리의 다른 글
[Spark3] CentOS 위에서 Spark Cluster 설치 방법 (2) | 2020.07.21 |
---|---|
[Spark3] Dynamic Partition Pruning (1) | 2020.07.15 |
[Spark3] Adaptive Query Execution (0) | 2020.07.15 |
[Spark3] 버전 3 새로운 기능 설명 및 링크 (0) | 2020.07.15 |
[Spark] 아파치 스파크 기본 설명 링크 (0) | 2020.07.15 |