[Spark] binary 형태의 데이터 읽는 방법

눈가락 2020. 1. 31. 23:03

2020. 1. 31. 23:03

간혹 Spark 를 사용하다 보면 bianry 라는 데이터 포맷을 읽게 되는 경우가 있다.

가령 아래 df 는 field0 column이 "binary" 라는 형태를 보인다.

이 값을 읽으려면 아래처럼 udf 를 만들면 된다.

import org.apache.spark.sql.functions.udf

val toStr = udf((payload: Array[Byte]) => new String(payload))
val parsing = df.withColumn("str", toStr(df("field0")))

새로 들어간 "str" column 이 왼쪽 filed0 를 parsing 한 것.

참고

[Spark] executor 개수 늘리는 방법 (0)	2020.02.15
[Spark] MongoDB connector for Apache Spark 웨비나 링크 (0)	2020.02.05
[AWS] amazon linux 에 scala, sbt 설치하는 방법 (0)	2020.01.20
[Spark] Dataframe csv 로 export 하기 (0)	2020.01.18
[Spark] take 한 값을 일일이 출력하고 싶을 때 (0)	2020.01.03

눈가락★