sql function 의 sum 을 groupby + agg 에서 사용
from pyspark.sql import Row from pyspark.sql.functions import sum as _sum df = sqlContext.createDataFrame( [Row(owner=u'u1', a_d=0.1), Row(owner=u'u2', a_d=0.0), Row(owner=u'u1', a_d=0.3)] ) df2 = df.groupBy('owner').agg(_sum('a_d').alias('a_d_sum')) df2.show() # +-----+-------+ # |owner|a_d_sum| # +-----+-------+ # | u1| 0.4| # | u2| 0.0| # +-----+-------+ |
아래 stackoverflow 답변 참고
https://stackoverflow.com/a/36719760
'Spark' 카테고리의 다른 글
[Spark] Scala 다양한 연산 모음 (0) | 2022.09.26 |
---|---|
[PySpark] sample dataframe 만들기 (0) | 2022.05.09 |
[PySpark] 여러 path 에서 데이터 읽는 방법 (0) | 2021.06.16 |
[Spark] SQL Built-in Functions 문서 링크 (0) | 2021.06.16 |
[Spark] json string 값을 갖는 column 에서 json 값 추출하는 방법 + 삽질의 결과 (0) | 2021.04.29 |