1. 학습
  2. /
  3. 강의
  4. /
  5. PySpark로 배우는 빅데이터 기초

Connected

연습 문제

Map과 Collect

PySpark에서 데이터를 다루는 핵심 방법은 map()을 사용하는 것입니다. map() 변환은 함수를 입력으로 받아 RDD의 각 원소에 적용해요. 이 방법은 컬렉션에 있는 각 URL에 연결된 웹사이트를 가져오는 일부터 숫자를 제곱하는 간단한 작업까지 다양하게 활용할 수 있습니다. 이 간단한 연습 문제에서는 이전에 만든 numbRDD RDD의 각 숫자를 map() 변환으로 세제곱(cube)해 볼 거예요. 그런 다음, 모든 요소를 하나의 변수에 저장하고 마지막으로 결과를 출력합니다.

SparkContext sc와 numbRDD는 워크스페이스에 이미 준비되어 있다는 점을 기억하세요.

지침

100 XP
  • numbRDD의 모든 숫자를 세제곱하도록 map() 변환을 만드세요.
  • 결과를 numbers_all 변수에 수집(collect)하세요.
  • numbers_all 변수에서 결과를 출력하세요.