ChatGPT 가 조언해준 것을 참고삼아

Spark Documentation 문서 번역을 한 번 해보려고 한다.

눈가락번역기의 번역 상태가 많이 좋지 않으니 양해 바람.

 

 

 

 

번역 대상 문서 : https://spark.apache.org/docs/latest/index.html

Spark Overview
스파크 개요

Apache Spark is a unified analytics engine for large-scale data processing.
Apache Spark 는 대규모 데이터 처리를 위한 통합 분석 엔진이다.

It provides high-level APIs in Java, Scala, Python, and R, and an optimized engine that supports general execution graphs.
Java, Scala, Python, R 언어를 통해 높은 레벨의 API 들과, 일반적인 실행 그래프를 지원하는 최적화 엔진을 제공한다.

It also supports a rich set of higher-level tools including Spark SQL for SQL and structured data processing, pandas API on Spark for pandas workloads, MLlib for machine learning, GraphX for graph processing, and Structured Streaming for incremental computation and stream processing.
SQL 과 구조화된 데이터 처리를 위한 Spark SQL, pandas 작업을 위한 pandas API on Spark, 머신 러닝을 위한 MLlib, 그래프 처리를 위한 GraphX, 점진적인 계산과 스트림 처리를 위한 Structured Streaming 등 더 높은 레벨의 도구들을 제공한다.

Running the Examples and Shell
예제 실행 및 Shell

Spark comes with several sample programs.
Spark 는 몇몇 예시 프로그램들과 함께 제공된다.

Python, Scala, Java, and R examples are in the examples/src/main directory.
Python, Scala, Java, 그리고 R 예제들은 examples/src/main 디렉터리 안에 있다.

To run Spark interactively in a Python interpreter, use bin/pyspark:
Python 인터프리터에서 상호작용하며 Spark 를 실행시키려면, bin/pyspark 를 실행해라. 

./bin/pyspark --master "local[2]"

Sample applications are provided in Python. For example:
Python 언어로 된 예시 어플리케이션들은 다음과 같이 제공된다.

./bin/spark-submit examples/src/main/python/pi.py 10

To run one of the Scala or Java sample programs, use bin/run-example <class> [params] in the top-level Spark directory.
Scala, Java 예제 프로그램 중 하나를 실행하려면, Spark 가장 최상위 디렉터리에서 bin/run-exaple <class> [params] 을 실행해라.

(Behind the scenes, this invokes the more general spark-submit script for launching applications). For example,
(이는 내부적으로, 더 일반적으로 어플리케이션을 실행하는 방법인 spark-submit script 를 부른다) 예를 들어

./bin/run-example SparkPi 10

You can also run Spark interactively through a modified version of the Scala shell.
또한 Scala Shell 의 수정된 버전을 통해, 상호작용하며 Spark 를 실행할 수 있다.

This is a great way to learn the framework.
이것이 framework 를 배우는 아주 멋진 방법이다!

./bin/spark-shell --master "local[2]"

The --master option specifies the master URL for a distributed cluster, or local to run locally with one thread, or local[N] to run locally with N threads.

--master 옵션은 분산 클러스터를 위한 master URL 을 특정짓는 옵션이며, 로컬에서 동작할 때는 하나의 쓰레드 혹은 N 개의 쓰레드로 동작시킬 수 있다.

You should start by using local for testing.

테스트를 위해 로컬에서 시작할 수 있다.

For a full list of options, run the Spark shell with the --help option.
전체 실행 옵션을 보려면, Spark shell 실행시 --help 옵션을 주고 실행해라.

Since version 1.4, Spark has provided an R API (only the DataFrame APIs are included).

1.4 버전 이후로, Spark 는 R API 도 제공한다. (오직 DataFrame APIs 에서만)

To run Spark interactively in an R interpreter, use bin/sparkR:

R 인터프리터에서 상호작용하며 Spark 를 실행하려면, bin/sparkR 을 실행해라. 

./bin/sparkR --master "local[2]"

Example applications are also provided in R. For example:

R 에서 예제 어플리케이션이 다음과 같이 제공된다.

./bin/spark-submit examples/src/main/r/dataframe.R

Running Spark Client Applications Anywhere with Spark Connect
Spark Connect 로 어디서든 Spark Client Application 실행하기

Spark Connect is a new client-server architecture introduced in Spark 3.4 that decouples Spark client applications and allows remote connectivity to Spark clusters.

Spark Connect 는 Spark 3.4 에서부터 추가된 새로운 Client-Server 아키텍처다. 이것은 Spark Client Applications 들의 커플링을 막고, Spark Clusters 에 원격으로 접근하는 것을 허용한다.

The separation between client and server allows Spark and its open ecosystem to be leveraged from anywhere, embedded in any application.

Client 와 Server 의 분리는 Spark 와 Spark 의 Ecosystem들이 어느 어플리케이션에 내장될 수 있고 어디서든 활용될 수 있도록 해준다.

In Spark 3.4, Spark Connect provides DataFrame API coverage for PySpark and DataFrame/Dataset API support in Scala.

Spark 3.4 에서, Spark Connect 는 Pyspark 의 DataFrame API 를 제공하고, Scala 의 DataFrame/DataSet API 을 제공한다.

To learn more about Spark Connect and how to use it, see Spark Connect Overview.

Spark Connect 에 대해 더 배우고 어떻게 사용하는지 알고싶다면 Spark Connect Overview 를 확인해라.

 

 

 

 

 

 

 

+ Recent posts