Map과 Collect

PySpark에서 데이터를 다루는 핵심 방법은 map()을 사용하는 것입니다. map() 변환은 함수를 입력으로 받아 RDD의 각 원소에 적용해요. 이 방법은 컬렉션에 있는 각 URL에 연결된 웹사이트를 가져오는 일부터 숫자를 제곱하는 간단한 작업까지 다양하게 활용할 수 있습니다. 이 간단한 연습 문제에서는 이전에 만든 numbRDD RDD의 각 숫자를 map() 변환으로 세제곱(cube)해 볼 거예요. 그런 다음, 모든 요소를 하나의 변수에 저장하고 마지막으로 결과를 출력합니다.

SparkContext sc와 numbRDD는 워크스페이스에 이미 준비되어 있다는 점을 기억하세요.