아래 명령어를 통해 dataframe을 csv 파일로 저장 가능하다.

 

df.coalesce(1).
    write.
    format("com.databricks.spark.csv").
    option("header", "true").
    save("/data/output.csv")

 

coalesce(1) 하는 이유는 분산된 상태로 저장하지 않기 위함임.

만약 이게 없었다면 dataframe 의 partition 개수대로 output 이 나뉘어질 것이다.

 

 

혹은 아래처럼 간단하게 할 수 있다.

 

df.write.csv("hdfs:///my/path/")

 

 

 

참고

https://stackoverflow.com/questions/31937958/how-to-export-data-from-spark-sql-to-csv

 

 

+ Recent posts