CommencerCommencer gratuitement

Lire un CSV et effectuer des agrégations

Vous disposez d’un tableur contenant les salaires de Data Scientists dans des entreprises de tailles variées, de petites à grandes. Vous souhaitez vérifier s’il existe une différence notable entre les salaires moyens selon la taille de l’entreprise.

Rappelez-vous : une SparkSession nommée spark est déjà disponible dans votre environnement !

Cet exercice fait partie du cours

Introduction à PySpark

Afficher le cours

Instructions

  • Chargez un fichier CSV en tant que DataFrame et déduisez le schéma.
  • Renvoyez le nombre de lignes.
  • Regroupez par la colonne company_size et calculez le salaire moyen avec salary_in_usd.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Load the CSV file into a DataFrame
salaries_df = ____("salaries.csv", header=True, inferSchema=____)

# Count the total number of rows
row_count = salaries_df.____
print(f"Total rows: {row_count}")

# Group by company size and calculate the average of salaries
salaries_df.____("company_size").____({"salary_in_usd": "avg"}).show()
salaries_df.show()
Modifier et exécuter le code