RDD 수집하기

이 연습에서는 PySpark에서 RDD와 DataFrame을 모두 사용해 보겠습니다. 목표는 두 가지 방식(RDD 연산과 DataFrame 메서드)으로 데이터를 그룹화하고 집계를 수행하는 것입니다.

먼저 직원 급여 데이터가 담긴 CSV 파일을 PySpark에 RDD로 불러옵니다. 그런 다음 경험 수준(experience level)으로 그룹화하고, DataFrame에서 각 경험 수준별 최대 급여를 계산합니다. 이를 통해 두 데이터 형식의 강점을 비교해 볼 수 있습니다.

사용할 데이터셋은 Data Scientist Salaries와 관련되어 있어 시장 동향을 파악하는 데 도움이 됩니다. 데이터는 이미 불러오고 정규화해 두었습니다! 워크스페이스에는 이미 spark라는 SparkSession이 준비되어 있다는 점을 기억하세요!