Collecter des RDD
Dans cet exercice, vous allez travailler avec des RDD et des DataFrames en PySpark. L’objectif est de regrouper des données et d’effectuer des agrégations à la fois avec des opérations RDD et des méthodes de DataFrame.
Vous chargerez un fichier CSV contenant des salaires d’employés dans PySpark sous forme de RDD. Vous ferez ensuite un groupement par niveau d’expérience et calculerez le salaire maximum pour chaque niveau d’expérience à partir d’un DataFrame. Cela vous permettra de comparer les atouts respectifs des deux formats de données.
Le jeu de données porte sur les salaires des Data Scientists, donc repérer les tendances du marché est dans votre intérêt ! Nous avons déjà chargé et normalisé les données pour vous. N’oubliez pas qu’une SparkSession appelée spark est déjà disponible dans votre environnement de travail !
Cet exercice fait partie du cours
Introduction à PySpark
Instructions
- Créez un RDD à partir d’un DataFrame.
- Récupérez et affichez les résultats du RDD et du DataFrame.
- Regroupez par
"experience_level"et calculez le salaire maximum pour chacun.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create an RDD from the df_salaries
rdd_salaries = df_salaries.____
# Collect and print the results
print(rdd_salaries.____)
# Group by the experience level and calculate the maximum salary
dataframe_results = df_salaries.____("experience_level").____({"salary_in_usd": 'max'})
# Show the results
dataframe_results.____