https://12bme.tistory.com/306?category=737765

 

[Spark] 스파크 RDD란?

분산된 이뮤터블 자바 객체 컬렉션인 RDD(Resilient Disributed Data)는 연산을 매우 빠르게 하며 아파치 스파크의 핵심입니다. 이름에서 알 수 있듯이, 데이터셋은 분산돼 있습니다. 데이터셋은 키를 기반으로 덩..

12bme.tistory.com

 

https://bcho.tistory.com/1027?category=563141

 

Apache Spark - RDD (Resilient Distributed DataSet) 이해하기 - #1

Spark RDD 이해하기 #1 조대협(http://bcho.tistory.com) 기본 개념 잡기 RDD 는 여러 분산 노드에 걸쳐서 저장되는 변경이 불가능한 데이타(객체)의 집합으로 각각의 RDD는 여러개의 파티션으로 분리가 된다. (서..

bcho.tistory.com

 

+ Recent posts