Lettura di un CSV ed esecuzione di aggregazioni
Hai un foglio di calcolo con gli stipendi dei Data Scientist di aziende di dimensioni che vanno da piccole a grandi. Vuoi verificare se c’è una differenza significativa tra gli stipendi medi raggruppati per dimensione dell’azienda.
Ricorda: nel tuo workspace è già presente una SparkSession chiamata spark!
Questo esercizio fa parte del corso
Introduzione a PySpark
Istruzioni dell'esercizio
- Carica un file CSV come DataFrame e inferisci lo schema.
- Restituisci il conteggio del numero di righe.
- Raggruppa per la colonna
company_sizee calcola lo stipendio medio consalary_in_usd.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Load the CSV file into a DataFrame
salaries_df = ____("salaries.csv", header=True, inferSchema=____)
# Count the total number of rows
row_count = salaries_df.____
print(f"Total rows: {row_count}")
# Group by company size and calculate the average of salaries
salaries_df.____("company_size").____({"salary_in_usd": "avg"}).show()
salaries_df.show()