val df = spark.read.........
어찌어찌 df 를 만들었다고 하자.
df 에 sql query를 넣고싶다.
아래 코드를 참고/수정하여 sql query를 적용하면 된다.
val sqlContext = new org.apache.spark.sql.SQLContext(sc) // 여기서 sc 는 sparkContext 객체
df.registerTempTable("value") // df를 sql 내부에 "value" 라는 이름의 table 로 만든다.
val sq = sqlContext.sql("select * from value where value LIKE 'T*'") //query 를 사용한다. 여기서는 T로 시작하는 모든 row를 리턴.
참고 코드 https://www.scaleway.com/en/docs/query-data-on-s3-using-apache-spark-with-hadoop/
'Spark' 카테고리의 다른 글
[Spark] take 한 값을 일일이 출력하고 싶을 때 (0) | 2020.01.03 |
---|---|
[Spark] rdd / dataset 으로 read 하는 방법과 그 차이 (0) | 2020.01.03 |
[Spark] 좀 더 자세히 이해하기 (0) | 2019.12.19 |
[Spark] Local Spark 와 AWS S3 연동하는 방법 (0) | 2019.12.19 |
[Spark] spark context, spark session 만드는 방법 (0) | 2019.12.18 |