전체 요소에 함수를 적용하여 RDD의 각 요소를 변환해야 할 때 이 작업을 사용합니다. 예를 들어 데이터 집합의 모든 단어의 대/소문자를 상위에 배치해야 하는 경우 맵 변환을 사용할 수 있습니다. 의 방법을 보자. 이러한 예제는 Spark API에 대한 간략한 개요를 제공합니다. Spark는 임의의 Java 또는 Python 개체를 포함하는 분산 데이터 집합의 개념을 기반으로 합니다. 외부 데이터에서 데이터 집합을 만든 다음 병렬 작업을 적용합니다. 스파크 API의 구성 블록은 RDD API입니다. RDD API에는 이전 데이터 집합을 기반으로 새 데이터 집합을 정의하는 변환과 클러스터에서 실행하는 작업을 시작하는 작업의 두 가지 유형이 있습니다. Spark의 RDD API 외에도 데이터프레임 API 및 머신 러닝 API와 같은 고급 API가 제공됩니다.

이러한 고급 API는 특정 데이터 작업을 수행하는 간결한 방법을 제공합니다. 이 페이지에서는 RDD API를 사용하는 예제와 높은 수준의 API를 사용하는 예제를 보여 드리겠습니다. 당신은 당신이 Pyspark에 대해 알고 얼마나 확인해야그러나, 다음 PySpark 스파크 컨텍스트 예제에서 우리는 스파크가 자동으로 SparkContext 객체를 생성하기 때문에 우리가 어떤 스파크 컨텍스트 객체를 생성하지 않는지 확인합니다, 기본적으로, 시간에 PySpark 셸이 시작됩니다. 따라서 다른 SparkContext 개체를 만들려고 하면 다음과 같은 오류가 발생합니다. 혼란!!! 그래. 의 예제와 함께이 혼란을 취소 할 수 있습니다 … 변환은 기존 RDD에 작업을 적용하거나 완전히 새로운 RDD를 만들어 새 RDD를 만드는 데 사용되는 작업 집합입니다. 다음은 몇 가지 변환 작업의 예입니다 : 너희들이 PySpark가 무엇인지, 파이썬이 스파크, RDD및이 PySpark 튜토리얼 블로그에서 Pyspark와 기계 학습의 엿보기에 가장 적합한 이유에 대한 아이디어를 얻었으면 합니다. 축하합니다, 당신은 더 이상 PySpark에 초보자가 아닙니다. PySpark에 대해 자세히 알아보고 다양한 산업 사용 사례를 이해하려면 파이썬 블로그를 통해 스파크를 살펴보십시오. 예를 들어 reduceByKey()를 사용하면 데이터가 섞이기 전에 동일한 키가 있는 쌍이 이미 결합됩니다.

따라서 네트워크를 통해 더 적은 데이터를 전송해야 합니다. 그런 다음 각 파티션의 모든 값이 줄어들도록 reduce 함수가 다시 호출됩니다. 스파크 기능의 사용을 배울 수있는 좋은 장소가 예제가 있습니다. 스파크 디렉터리 구조의 change.txt 파일을 사용하는 다른 예제를 살펴보겠습니다. 언어가 정적으로 입력되면 모든 변수 이름이 형식과 개체모두에 바인딩됩니다. 형식 검사는 컴파일 타임에 발생합니다. 일반적인 예는 자바 또는 스칼라입니다. 스칼라의 경우 형식 systemcan변수의 형식을 추론하므로 작업을 좀 더 빠르게 만드는 형식 추론 형식이 있습니다. 동적으로 입력된 언어에서는 물론 null이 아니면 모든 변수 이름은 개체에만 바인딩됩니다. 형식 검사는 런타임에 발생합니다. 개발자는 일반적으로 매번 형식을 지정할 필요가 없으므로 더 빠르게 작업할 수 있습니다.

여기에 전형적인 예는 파이썬 또는 루비입니다. RDD는 기존 데이터 집합에서 새 데이터 집합을 만드는 변환과 데이터 집합에서 계산을 실행한 후 드라이버 프로그램에 값을 반환하는 작업의 두 가지 유형의 작업을 지원합니다. 예를 들어 map()은 함수를 통해 각 데이터 집합 요소를 전달하고 결과를 나타내는 새 RDD를 반환하는 변환입니다. 반면, reduce()는 일부 함수를 사용하여 RDD의 모든 요소를 집계하고 최종 결과를 드라이버 프로그램에 반환하는 동작입니다. 그러나 분산 데이터 집합을 반환 하는 reduceByKey()도 있습니다.