Lire un CSV et effectuer des agrégations
Vous disposez d’un tableur contenant les salaires de Data Scientists dans des entreprises de tailles variées, de petites à grandes. Vous souhaitez vérifier s’il existe une différence notable entre les salaires moyens selon la taille de l’entreprise.
Rappelez-vous : une SparkSession nommée spark est déjà disponible dans votre environnement !
Cet exercice fait partie du cours
Introduction à PySpark
Instructions
- Chargez un fichier CSV en tant que DataFrame et déduisez le schéma.
- Renvoyez le nombre de lignes.
- Regroupez par la colonne
company_sizeet calculez le salaire moyen avecsalary_in_usd.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Load the CSV file into a DataFrame
salaries_df = ____("salaries.csv", header=True, inferSchema=____)
# Count the total number of rows
row_count = salaries_df.____
print(f"Total rows: {row_count}")
# Group by company size and calculate the average of salaries
salaries_df.____("company_size").____({"salary_in_usd": "avg"}).show()
salaries_df.show()