간혹 Spark 를 사용하다 보면 bianry 라는 데이터 포맷을 읽게 되는 경우가 있다.

가령 아래 df 는 field0 column이 "binary" 라는 형태를 보인다.

 

 

 

이 값을 읽으려면 아래처럼 udf 를 만들면 된다.

 

 

import org.apache.spark.sql.functions.udf

 

val toStr = udf((payload: Array[Byte]) => new String(payload))
val parsing = df.withColumn("str", toStr(df("field0")))

 

 

 

 

새로 들어간 "str" column 이 왼쪽 filed0 를 parsing 한 것.

 

 

 

 

 

참고

https://stackoverflow.com/questions/45471823/how-do-i-convert-binary-string-to-scala-string-in-spark-scala

 

+ Recent posts