https://12bme.tistory.com/306?category=737765
[Spark] 스파크 RDD란?
분산된 이뮤터블 자바 객체 컬렉션인 RDD(Resilient Disributed Data)는 연산을 매우 빠르게 하며 아파치 스파크의 핵심입니다. 이름에서 알 수 있듯이, 데이터셋은 분산돼 있습니다. 데이터셋은 키를 기반으로 덩..
12bme.tistory.com
https://bcho.tistory.com/1027?category=563141
Apache Spark - RDD (Resilient Distributed DataSet) 이해하기 - #1
Spark RDD 이해하기 #1 조대협(http://bcho.tistory.com) 기본 개념 잡기 RDD 는 여러 분산 노드에 걸쳐서 저장되는 변경이 불가능한 데이타(객체)의 집합으로 각각의 RDD는 여러개의 파티션으로 분리가 된다. (서..
bcho.tistory.com
'Spark' 카테고리의 다른 글
[Spark] scala dataframe 이용한 pagerank 알고리즘 구현하기 (0) | 2019.06.14 |
---|---|
[Spark] scala rdd 이용한 pagerank 알고리즘 이해하기 (0) | 2019.06.14 |
[Spark] Ubuntu에 sbt 설치하는 법 (0) | 2019.05.21 |
[Spark] mongo-spark 연동하는 방법 (0) | 2019.05.20 |
[Spark] There are 0 datanode(s) running and no node(s) are excluded in this operation. 에러 (0) | 2019.05.20 |