[PySpark] 컬럼의 합 구하는 방법

눈가락 2021. 6. 16. 10:00

2021. 6. 16. 10:00

sql function 의 sum 을 groupby + agg 에서 사용

from pyspark.sql import Row
from pyspark.sql.functions import sum as _sum

df = sqlContext.createDataFrame(
    [Row(owner=u'u1', a_d=0.1), Row(owner=u'u2', a_d=0.0), Row(owner=u'u1', a_d=0.3)]
)

df2 = df.groupBy('owner').agg(_sum('a_d').alias('a_d_sum'))
df2.show()

# +-----+-------+
# |owner|a_d_sum|
# +-----+-------+
# |   u1|    0.4|
# |   u2|    0.0|
# +-----+-------+

아래 stackoverflow 답변 참고

https://stackoverflow.com/a/36719760

Sum operation on PySpark DataFrame giving TypeError when type is fine

I have such DataFrame in PySpark (this is the result of a take(3), the dataframe is very big): sc = SparkContext() df = [Row(owner=u'u1', a_d=0.1), Row(owner=u'u2', a_d=0.0), Row(owner=u'u1', a_d=...

stackoverflow.com

저작자표시 비영리 동일조건

'Spark' 카테고리의 다른 글

[Spark] Scala 다양한 연산 모음 (0)	2022.09.26
[PySpark] sample dataframe 만들기 (0)	2022.05.09
[PySpark] 여러 path 에서 데이터 읽는 방법 (0)	2021.06.16
[Spark] SQL Built-in Functions 문서 링크 (0)	2021.06.16
[Spark] json string 값을 갖는 column 에서 json 값 추출하는 방법 + 삽질의 결과 (0)	2021.04.29

눈가락★

[PySpark] 컬럼의 합 구하는 방법

'Spark' 카테고리의 다른 글

+ Recent posts

티스토리툴바