아래 명령어를 통해 dataframe을 csv 파일로 저장 가능하다.
df.coalesce(1).
write.
format("com.databricks.spark.csv").
option("header", "true").
save("/data/output.csv")
coalesce(1) 하는 이유는 분산된 상태로 저장하지 않기 위함임.
만약 이게 없었다면 dataframe 의 partition 개수대로 output 이 나뉘어질 것이다.
혹은 아래처럼 간단하게 할 수 있다.
df.write.csv("hdfs:///my/path/")
참고
https://stackoverflow.com/questions/31937958/how-to-export-data-from-spark-sql-to-csv
'Spark' 카테고리의 다른 글
[Spark] binary 형태의 데이터 읽는 방법 (0) | 2020.01.31 |
---|---|
[AWS] amazon linux 에 scala, sbt 설치하는 방법 (0) | 2020.01.20 |
[Spark] take 한 값을 일일이 출력하고 싶을 때 (0) | 2020.01.03 |
[Spark] rdd / dataset 으로 read 하는 방법과 그 차이 (0) | 2020.01.03 |
[Spark SQL] SQL Query 사용하는 방법 (0) | 2019.12.27 |