내가 이해한 것만 적어둠.

이해 못한 것은 아래 '참고' 링크들에 자세히 나와있음.

 

 


< GPU 지원 >

딥러닝 기능이나 알고리즘을 지원하지 않았던 기존의 Spark 에서 벗어나,
Nvidia, AMD, Intel 등의 GPU 자원을 사용할 수 있도록 지원.


< AQE : Adaptive Query Execution >

최적화 된 query plan 을 생성할 수 있도록 optimization 해주는 기법.
참고 : https://eyeballs.tistory.com/245


< SparkGraph 모듈 추가 >

Neo4J 에서 개발한 Cypher 쿼리 언어로 처리되는 그래프 모델 및 알고리즘이 제공되어
Graph 처리를 할 수 있도록 지원.


< Apache Arrow 통합 >

Apache Arrow 는 In-memory 데이터를 위한 이기종 언어 간 개발 플랫폼이며
효율적인 빅데이터 처리 분석을 위해 Apache Arrow 데이터 형식와 통합.

 
< 새로운 포맷의 EXPLAIN command >

Explain 명령어의 결과가 눈에 잘 들어오도록 새로운 포맷으로 바뀜.


< Dynamic Partition Pruning >

불필요한 데이터를 읽지 않도록 가지치기 하여 query 성능을 높임.
참고 : https://eyeballs.tistory.com/248

 

 

 

참고

 


자세한 설명

https://nephtyws.github.io/data/whats-new-in-spark-3/

https://medium.com/cloudzone/apache-spark-3-0-review-what-the-spark-is-all-about-998844e12b3c

https://databricks.com/blog/2020/06/18/introducing-apache-spark-3-0-now-available-in-databricks-runtime-7-0.html

https://spark.apache.org/releases/spark-release-3-0-0.html

 

 

 

간단한 설명

https://1004jonghee.tistory.com/entry/Apache-Spark-30

 

 

 

 

 

 

 

 

+ Recent posts