브로드캐스트 해시 조인

 

절차
-> 디멘션 테이블(작은 테이블)을 먼저 해시 테이블로 만듦
-> 해당 해시 테이블의 값을 각 팩트 테이블(큰 테이블) 파티션에 뿌려줌
-> 각 파티션 내부에서 조인을 진행함. 셔플 과정이 없기 때문에 비용 절감

 

아래 링크에 브로드캐스트 해시 조인을 사용하는 사례를 들어 설명하는 부분이 있음

참고 https://eyeballs.tistory.com/248

 

 


브로드 캐스트 조인은 작은 데이터를 작업자 노드로 복사하므로 매우 효율적이며 초고속 조인이 가능합니다. 우리가 두 개의 데이터 세트에 합류하고 하나의 데이터 세트가 다른 데이터 세트보다 훨씬 작 으면 (예 : 작은 데이터 세트가 메모리에 맞을 수있는 경우), 우리는 브로드 캐스트 해시 결합을 사용해야합니다. 

다음 이미지는 Large DataSet의 각 파티션에 작은 데이터 세트가 브로드 캐스트 해시 조인을 시각화합니다.

 

 

 

 

 

 

 

 

 

출처 : 

https://riptutorial.com/ko/apache-spark/example/25482/spark%EC%9D%98-broadcast-hash-join

https://www.it-swarm-ko.tech/ko/apache-spark/dataframe-%ec%a1%b0%ec%9d%b8-%ec%b5%9c%ec%a0%81%ed%99%94%eb%b8%8c%eb%a1%9c%eb%93%9c-%ec%ba%90%ec%8a%a4%ed%8a%b8-%ed%95%b4%ec%8b%9c-%ec%a1%b0%ec%9d%b8/1055563311/

 

 

+ Recent posts