Skip to content

Commit

Permalink
추가 번역 + 깨진 syntax 수정 (#6)
Browse files Browse the repository at this point in the history
1. 초기 문서 추가 번역 + RDD Programming Guide 링크 삭제 + API Docs 링크 수정.
2. Header, Sidebar 번역.
3. 기타 자잘한 수정 + 일관성 문제 해결.
  • Loading branch information
dongjinleekr authored Aug 6, 2019
1 parent 26d7cc7 commit 421770f
Show file tree
Hide file tree
Showing 12 changed files with 71 additions and 80 deletions.
68 changes: 34 additions & 34 deletions docs/_data/menu-sql.yaml
Original file line number Diff line number Diff line change
@@ -1,74 +1,74 @@
- text: Getting Started
- text: 시작하기
url: sql-getting-started.html
subitems:
- text: "Starting Point: SparkSession"
- text: "시작점: SparkSession"
url: sql-getting-started.html#starting-point-sparksession
- text: Creating DataFrames
- text: DataFrame 생성하기
url: sql-getting-started.html#creating-dataframes
- text: Untyped Dataset Operations (DataFrame operations)
- text: 타입이 없는 Dataset 동작 (DataFrame 동작)
url: sql-getting-started.html#untyped-dataset-operations-aka-dataframe-operations
- text: Running SQL Queries Programmatically
- text: 응용 프로그램 안에서 SQL 쿼리 실행하기
url: sql-getting-started.html#running-sql-queries-programmatically
- text: Global Temporary View
- text: 전역 임시 뷰
url: sql-getting-started.html#global-temporary-view
- text: Creating Datasets
- text: Dataset 생성하기
url: sql-getting-started.html#creating-datasets
- text: Interoperating with RDDs
- text: RDD 연동하기
url: sql-getting-started.html#interoperating-with-rdds
- text: Aggregations
- text: 집계(Aggregations)
url: sql-getting-started.html#aggregations
- text: Data Sources
- text: 데이터 소스
url: sql-data-sources.html
subitems:
- text: "Generic Load/Save Functions"
- text: "일반 불러오기/저장하기 함수"
url: sql-data-sources-load-save-functions.html
- text: Parquet Files
- text: Parquet 파일
url: sql-data-sources-parquet.html
- text: ORC Files
- text: ORC 파일
url: sql-data-sources-orc.html
- text: JSON Files
- text: JSON 파일
url: sql-data-sources-json.html
- text: Hive Tables
- text: Hive 테이블
url: sql-data-sources-hive-tables.html
- text: JDBC To Other Databases
- text: JDBC를 통한 다른 데이터베이스 사용하기
url: sql-data-sources-jdbc.html
- text: Avro Files
- text: Avro 파일
url: sql-data-sources-avro.html
- text: Troubleshooting
- text: 문제 해결
url: sql-data-sources-troubleshooting.html
- text: Performance Tuning
- text: 성능 튜닝
url: sql-performance-tuning.html
subitems:
- text: Caching Data In Memory
- text: 메모리에 데이터 캐싱하기
url: sql-performance-tuning.html#caching-data-in-memory
- text: Other Configuration Options
- text: 기타 설정 옵션
url: sql-performance-tuning.html#other-configuration-options
- text: Broadcast Hint for SQL Queries
- text: SQL 쿼리를 위한 브로드캐스트 힌트
url: sql-performance-tuning.html#broadcast-hint-for-sql-queries
- text: Distributed SQL Engine
- text: 분산 SQL 엔진
url: sql-distributed-sql-engine.html
subitems:
- text: "Running the Thrift JDBC/ODBC server"
- text: "Thrift JDBC/ODBC 서버 실행하기"
url: sql-distributed-sql-engine.html#running-the-thrift-jdbcodbc-server
- text: Running the Spark SQL CLI
- text: 스파크 SQL CLI 실행하기
url: sql-distributed-sql-engine.html#running-the-spark-sql-cli
- text: PySpark Usage Guide for Pandas with Apache Arrow
- text: 아파치 애로우(Arrow)와 Pandas를 위한 PySpark 사용 가이드
url: sql-pyspark-pandas-with-arrow.html
subitems:
- text: Apache Arrow in Spark
- text: 스파크에서의 아파치 애로우
url: sql-pyspark-pandas-with-arrow.html#apache-arrow-in-spark
- text: "Enabling for Conversion to/from Pandas"
- text: "Pandas와의 변환 활성화하기"
url: sql-pyspark-pandas-with-arrow.html#enabling-for-conversion-tofrom-pandas
- text: "Pandas UDFs (a.k.a. Vectorized UDFs)"
- text: "Pandas UDF (일명 ‘벡터화된 UDF’)"
url: sql-pyspark-pandas-with-arrow.html#pandas-udfs-aka-vectorized-udfs
- text: Usage Notes
- text: 유의 사항
url: sql-pyspark-pandas-with-arrow.html#usage-notes
- text: Reference
- text: 참조
url: sql-reference.html
subitems:
- text: Data Types
- text: 데이터 타입
url: sql-reference.html#data-types
- text: NaN Semantics
- text: NaN 의미 구조
url: sql-reference.html#nan-semantics
- text: Arithmetic operations
- text: 산술 연산
url: sql-reference.html#arithmetic-operations
14 changes: 7 additions & 7 deletions docs/_layouts/global.html
Original file line number Diff line number Diff line change
Expand Up @@ -63,25 +63,25 @@
</div>
<ul class="nav">
<!--TODO(andyk): Add class="active" attribute to li some how.-->
<li><a href="index.html">Overview</a></li>
<li><a href="index.html">개요</a></li>

<li class="dropdown">
<a href="#" class="dropdown-toggle" data-toggle="dropdown">Programming Guides<b class="caret"></b></a>
<a href="#" class="dropdown-toggle" data-toggle="dropdown">프로그래밍 가이드<b class="caret"></b></a>
<ul class="dropdown-menu">
<li><a href="quick-start.html">Quick Start</a></li>
<li><a href="sql-programming-guide.html">SQL, DataFrames, and Datasets</a></li>
<li><a href="structured-streaming-programming-guide.html">Structured Streaming</a></li>
<li><a href="quick-start.html">빠른 시작</a></li>
<li><a href="sql-programming-guide.html">스파크 SQL, DataFrame, Dataset</a></li>
<li><a href="structured-streaming-programming-guide.html">구조적 스트리밍</a></li>
</ul>
</li>

<li class="dropdown">
<a href="#" class="dropdown-toggle" data-toggle="dropdown">API Docs<b class="caret"></b></a>
<a href="#" class="dropdown-toggle" data-toggle="dropdown">API 문서<b class="caret"></b></a>
<ul class="dropdown-menu">
<li><a href="https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.package">Scala</a></li>
<li><a href="https://spark.apache.org/docs/latest/api/java/index.html">Java</a></li>
<li><a href="https://spark.apache.org/docs/latest/api/python/index.html">Python</a></li>
<li><a href="https://spark.apache.org/docs/latest/api/R/index.html">R</a></li>
<li><a href="https://spark.apache.org/docs/latest/api/sql/index.html">SQL, Built-in Functions</a></li>
<li><a href="https://spark.apache.org/docs/latest/api/sql/index.html">Spark SQL 함수</a></li>
</ul>
</li>
</ul>
Expand Down
37 changes: 15 additions & 22 deletions docs/index.md
Original file line number Diff line number Diff line change
@@ -1,36 +1,29 @@
---
layout: global
displayTitle: Spark Overview
displayTitle: 개요
title: Overview
description: Apache Spark SPARK_VERSION_SHORT documentation homepage
---

**Programming Guides:**
**프로그래밍 가이드:**

* [빠른 시작](quick-start.html): a quick introduction to the Spark API; start here!
* [RDD Programming Guide](rdd-programming-guide.html): overview of Spark basics - RDDs (core but old API), accumulators, and broadcast variables
* [스파크 SQL, DataFrame, Dataset 가이드](sql-programming-guide.html): processing structured data with relational queries (newer API than RDDs)
* [구조화된 스트리밍](structured-streaming-programming-guide.html): processing structured data streams with relation queries (using Datasets and DataFrames, newer API than DStreams)
* [빠른 시작](quick-start.html): 스파크 API에 대한 초간단 설명입니다. 입문자는 여기부터 읽으세요.
* [스파크 SQL, DataFrame, Dataset](sql-programming-guide.html): 관계형 쿼리(relational quey)를 사용해서 구조화된 데이터(structured data) 처리하기.
* [구조적 스트리밍](structured-streaming-programming-guide.html): 관계형 쿼리(relational quey)를 사용해서 구조화된 데이터 스트림(structured data stream) 처리하기.

**API Docs:**
**API 문서:**

* [Spark Scala API (Scaladoc)](https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.package)
* [Spark Java API (Javadoc)](https://spark.apache.org/docs/latest/api/java/index.html)
* [Spark Python API (Sphinx)](https://spark.apache.org/docs/latest/api/python/index.html)
* [Spark R API (Roxygen2)](https://spark.apache.org/docs/latest/api/R/index.html)
* [Spark SQL, Built-in Functions (MkDocs)](https://spark.apache.org/docs/latest/api/sql/index.html)
* [Scala API 문서 (Scaladoc)](https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.package)
* [Java API 문서 (Javadoc)](https://spark.apache.org/docs/latest/api/java/index.html)
* [Python API 문서 (Sphinx)](https://spark.apache.org/docs/latest/api/python/index.html)
* [R API 문서 (Roxygen2)](https://spark.apache.org/docs/latest/api/R/index.html)
* [스파크 SQL 함수 문서 (MkDocs)](https://spark.apache.org/docs/latest/api/sql/index.html)

**External Resources:**
**기타 자료:**

* [Spark Homepage](https://spark.apache.org)
* [Spark Community](https://spark.apache.org/community.html) resources, including local meetups
* [StackOverflow tag `apache-spark`](http://stackoverflow.com/questions/tagged/apache-spark)
* [Mailing Lists](https://spark.apache.org/mailing-lists.html): ask questions about Spark here
* [AMP Camps](http://ampcamp.berkeley.edu/): a series of training camps at UC Berkeley that featured talks and
exercises about Spark, Spark Streaming, Mesos, and more. [Videos](http://ampcamp.berkeley.edu/6/),
[slides](http://ampcamp.berkeley.edu/6/) and [exercises](http://ampcamp.berkeley.edu/6/exercises/) are
available online for free.
* [Code Examples](https://spark.apache.org/examples.html): more are also available in the `examples` subfolder of Spark ([Scala]({{site.SPARK_GITHUB_URL}}/tree/master/examples/src/main/scala/org/apache/spark/examples),
* [스파크 공식 웹사이트 (영어)](https://spark.apache.org)
* [예제 코드 (영어)](https://spark.apache.org/examples.html): 스파크 프로젝트의 `examples` 디렉토리에서 더 많은 예제를 볼 수 있습니다. ([Scala]({{site.SPARK_GITHUB_URL}}/tree/master/examples/src/main/scala/org/apache/spark/examples),
[Java]({{site.SPARK_GITHUB_URL}}/tree/master/examples/src/main/java/org/apache/spark/examples),
[Python]({{site.SPARK_GITHUB_URL}}/tree/master/examples/src/main/python),
[R]({{site.SPARK_GITHUB_URL}}/tree/master/examples/src/main/r))
* [한국 스파크 사용자 모임 (Facebook)](https://www.facebook.com/groups/sparkkoreauser/)
7 changes: 3 additions & 4 deletions docs/quick-start.md
Original file line number Diff line number Diff line change
Expand Up @@ -13,10 +13,9 @@ description: Quick start tutorial for Spark SPARK_VERSION_SHORT

스파크 2.0 이전까지는 RDD(Resilient Distributed Dataset)가 주 프로그래밍 인터페이스로 사용되었습니다. 스파크 2.0 이후부터 주 프로그래밍 인터페이스가 RDD에서 Dataset으로 교체되었는데, 이 Dataset은 RDD와 비슷하지만 강한 타입체크(strongly-typed)를 지원하고 훨씬 최적화되어 있습니다. RDD 인터페이스는 여전히 사용 가능하며 [RDD 프로그래밍 가이드(영문)](https://spark.apache.org/docs/latest/rdd-programming-guide.html)에서 자세한 내용을 확인하실 수 있습니다. 하지만 여기에서는 RDD보다 훨씬 좋은 성능을 보여주는 Dataset을 사용할 것을 강력히 권장합니다. [SQL 프로그래밍 가이드](sql-programming-guide.html)에서 Dataset에 대한 자세한 정보를 얻을 수 있습니다.

# Security
# 보안

Security in Spark is OFF by default. This could mean you are vulnerable to attack by default.
Please see [Spark Security](security.html) before running Spark.
스파크의 보안 기능은 기본적으로 꺼져 있습니다. 즉, 외부 침입에 취약할 수밖에 없다는 얘기죠. 테스트 삼아 로컬에서 돌려 보는 것은 상관이 없습니다만, 실제 운영 환경에 설정하시기 전에는 반드시 [스파크 보안](security.html) 문서를 확인하세요.

# 스파크 셸(Shell)을 이용한 대화형 분석

Expand Down Expand Up @@ -208,7 +207,7 @@ res9: Long = 15
<div class="codetabs">
<div data-lang="scala" markdown="1">

먼저 `SimpleApp.scala`라는 이름의 매우 간단한 Scala 스파크 애플리케이션을 만들어 보겠습니다.
예제로 `SimpleApp.scala`라는 이름의 매우 간단한 Scala 스파크 애플리케이션을 만들어 보겠습니다.

{% highlight scala %}
/* SimpleApp.scala */
Expand Down
2 changes: 1 addition & 1 deletion docs/sql-data-sources-avro.md
Original file line number Diff line number Diff line change
Expand Up @@ -130,7 +130,7 @@ Avro의 데이터 소스 옵션은 `DataFrameReader` 이나 `DataFrameWriter`
## 설정
Avro의 설정은 SparkSession의 `setConf` 메소드를 이용하거나 SQL로 `SET key=value `명령을 실행해 구성할 수 있습니다.
<table class="table">
<tr><th><b>속성 이름</b></th><th><b>기본값</b></th><th><b>의미</b></th><th><b>적용 범위</b></th></tr>
<tr><th><b>속성 이름</b></th><th><b>기본값</b></th><th><b>의미</b></th></tr>
<tr>
<td>spark.sql.legacy.replaceDatabricksSparkAvro.enabled</td>
<td>true</td>
Expand Down
2 changes: 1 addition & 1 deletion docs/sql-distributed-sql-engine.md
Original file line number Diff line number Diff line change
Expand Up @@ -62,7 +62,7 @@ beeline을 사용해 http 모드에서의 JDBC/ODBC 서버 연결을 테스트
beeline> !connect jdbc:hive2://<host>:<port>/<database>?hive.server2.transport.mode=http;hive.server2.thrift.http.path=<http_endpoint>


## 스파크 SQL CLI 실행
## 스파크 SQL CLI 실행하기

스파크 SQL CLI은 로컬 모드에서 Hive metastore 서비스를 실행하고 커맨드 라인에서 쿼리 입력을 실행하는 편리한 도구입니다. 스파크 SQL CLI는 Thrift JDBC 서버와 통신할 수 없습니다.

Expand Down
2 changes: 1 addition & 1 deletion docs/sql-getting-started.md
Original file line number Diff line number Diff line change
Expand Up @@ -48,7 +48,7 @@ displayTitle: 시작하기
</div>


## 타입이 없는 Dataset 동작 (또는 DataFrame 동작)
## 타입이 없는 Dataset 동작 (DataFrame 동작)

DataFrame을 사용하면 [Scala](https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.Dataset), [Java](https://spark.apache.org/docs/latest/api/java/index.html?org/apache/spark/sql/Dataset.html), [Python](https://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.DataFrame), [R](https://spark.apache.org/docs/latest/api/R/SparkDataFrame.html)에서 각 언어 특성에 맞게 데이터를 조작할 수 있습니다

Expand Down
2 changes: 1 addition & 1 deletion docs/sql-performance-tuning.md
Original file line number Diff line number Diff line change
Expand Up @@ -67,7 +67,7 @@ displayTitle: 성능 튜닝
<td><code>spark.sql.autoBroadcastJoinThreshold</code></td>
<td>10485760 (10 MB)</td>
<td>
조인을 수행 시, 모든 작업 노드에 브로드캐스트될 테이블의 최대 바이트 사이즈를 설정합니다. 이 값을 -1로 설정하면 브로드캐스팅이 비활성화 됩니다. 현재, 통계는 명령어 <code>ANALYZE TABLE <tableName> COMPUTE STATISTICS noscan </code>가 적용된 Hive 메타스토어 테이블에서만 지원됩니다.
조인을 수행 시, 모든 작업 노드에 브로드캐스트될 테이블의 최대 바이트 사이즈를 설정합니다. 이 값을 -1로 설정하면 브로드캐스팅이 비활성화 됩니다. 현재, 통계는 명령어 <code>ANALYZE TABLE &lt;tableName&gt; COMPUTE STATISTICS noscan </code>가 적용된 Hive 메타스토어 테이블에서만 지원됩니다.
</td>
</tr>
<tr>
Expand Down
4 changes: 2 additions & 2 deletions docs/sql-programming-guide.md
Original file line number Diff line number Diff line change
@@ -1,7 +1,7 @@
---
layout: global
displayTitle: 스파크 SQL, DataFrame, Dataset 가이드
title: 스파크 SQL, DataFrame, Dataset 가이드
displayTitle: 스파크 SQL, DataFrame, Dataset
title: 스파크 SQL, DataFrame, Dataset
---

스파크 SQL은 구조화된 데이터 처리를 위한 스파크 모듈입니다. 기본 스파크 RDD API와는 다르게, 스파크 SQL이 제공하는 인터페이스는 데이터의 구조와 계산 과정의 구조에 대한 정보를 더 많이 포함하고 있습니다. 내부적으로, 스파크 SQL은 내부에서 별도의 정보를 이용해 최적화를 수행합니다. Dataset API와 SQL을 포함하고 있는 스파크 SQL의 사용법은 다양합니다. 동일한 실행 엔진을 사용한다면 계산되는 결과는 어떤 API나 프로그래밍 언어를 사용하는지에 상관 없이 동일합니다. 이것이 의미하는 것은 개발자가 필요한 변환을 가장 자연스럽게 표현하기 위해서 적절한 API를 유연하게 사용할 수 있다는 것입니다.
Expand Down
6 changes: 3 additions & 3 deletions docs/sql-pyspark-pandas-with-arrow.md
Original file line number Diff line number Diff line change
Expand Up @@ -7,15 +7,15 @@ displayTitle: 아파치 애로우(Arrow)와 Pandas를 위한 PySpark 사용 가
* Table of contents
{:toc}

## 스파크의 아파치 애로우
## 스파크에서의 아파치 애로우

아파치 애로우는 인메모리(In-Memory) 컬럼기반 데이터 포맷으로 스파크에서 JVM과 Python 프로세스 간에 데이터를 효율적으로 전송하기 위해 사용됩니다. 현재 Pandas/NumPy 데이터로 작업하는 Python 사용자에게 가장 유용할 것입니다. 바로 사용할 수는 없으며 장점을 최대한 살리고 호환성을 높이기 위해서 설정이나 코드를 조금 수정해야 할 수 있습니다. 이 가이드는 스파크에서 애로우를 사용하는 방법에 대해 상위레벨에서 설명하고, 애로우를 사용할 수 있는 데이터로 작업할 때의 차이를 강조하여 알려줍니다.

### PyArrow 설치 확인

pip을 사용하여 PySpark를 설치한다면 `pip install pyspark[sql]` 명령을 사용하여 PyArrow를 SQL 모듈의 추가 의존성으로 가져올 수 있습니다. 그렇지 않다면 모든 클러스터 노드에서 PyArrow가 설치되어 있고 사용 가능한지 확인해야 합니다. 현재 지원되는 버전은 0.8.0입니다. pip 또는 conda-forge 채널의 conda를 사용하여 설치할 수 있습니다. 자세한 내용은 PyArrow [설치](https://arrow.apache.org/docs/python/install.html)를 참조하세요.

## Pandas와의 변환 활성화
## Pandas와의 변환 활성화하기

애로우는 `toPandas()`호출을 사용하여 스파크 DataFrame을 Pandas DataFrame으로 변환할 때와 `createDataFrame(pandas_df)`로 Pandas DataFrame에서 Spark DataFrame을 생성할 때 최적화를 위해 사용할 수 있습니다. 이러한 호출을 실행할 때 Arrow를 사용하려면 먼저 스파크 설정 'spark.sql.execution.arrow.enabled'를 'true'로 설정해야 합니다. 기본 설정은 사용하지 않음으로 되어 있습니다.

Expand Down Expand Up @@ -68,7 +68,7 @@ Scalar Pandas UDF는 scalar 연산을 벡터화하는 데 사용됩니다. `sele
</div>
</div>

자세한 사용법은 <code>[pyspark.sql.functions.pandas_udf](https://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.functions.pandas_udf)</code> 와 <code>[pyspark.sql.GroupedData.apply](https://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.GroupedData.apply)</code>를 참조하세요.
자세한 사용법은 [<code>pyspark.sql.functions.pandas_udf</code>](https://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.functions.pandas_udf)[<code>pyspark.sql.GroupedData.apply</code>](https://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.GroupedData.apply)를 참조하세요.


### 그룹별 집계 (Aggregate)
Expand Down
2 changes: 1 addition & 1 deletion docs/sql-reference.md
Original file line number Diff line number Diff line change
Expand Up @@ -325,4 +325,4 @@ from pyspark.sql.types import *

## 산술 연산

숫자 타입 (`decimal`제외) 연산 시 오버플로가 체크되지 않습니다. 이는 오버플로를 발생시키는 연산 시 그 결과값이 Java/Scala 프로그램에서 반환되는 연산 결과값과 같다는 것을 의미합니다. (예. 두 정수의 합이 표현할 수 있는 최댓값보다 크다면 결과값이 음수가 됩니다).
숫자 타입 (`decimal`제외) 연산 시 오버플로가 체크되지 않습니다. 이는 오버플로를 발생시키는 연산 시 그 결과값이 Java/Scala 프로그램에서 반환되는 연산 결과값과 같다는 것을 의미합니다. (예: 두 정수의 합이 표현할 수 있는 최댓값보다 크다면 결과값이 음수가 됩니다.)
Loading

0 comments on commit 421770f

Please sign in to comment.