[Spark] Dataframe csv 로 export 하기

눈가락 2020. 1. 18. 14:28

2020. 1. 18. 14:28

아래 명령어를 통해 dataframe을 csv 파일로 저장 가능하다.

df.coalesce(1).
    write.
    format("com.databricks.spark.csv").
    option("header", "true").
    save("/data/output.csv")

coalesce(1) 하는 이유는 분산된 상태로 저장하지 않기 위함임.

만약 이게 없었다면 dataframe 의 partition 개수대로 output 이 나뉘어질 것이다.

혹은 아래처럼 간단하게 할 수 있다.

df.write.csv("hdfs:///my/path/")

참고

[Spark] binary 형태의 데이터 읽는 방법 (0)	2020.01.31
[AWS] amazon linux 에 scala, sbt 설치하는 방법 (0)	2020.01.20
[Spark] take 한 값을 일일이 출력하고 싶을 때 (0)	2020.01.03
[Spark] rdd / dataset 으로 read 하는 방법과 그 차이 (0)	2020.01.03
[Spark SQL] SQL Query 사용하는 방법 (0)	2019.12.27

눈가락★