IniziaInizia gratis

Lettura di un CSV ed esecuzione di aggregazioni

Hai un foglio di calcolo con gli stipendi dei Data Scientist di aziende di dimensioni che vanno da piccole a grandi. Vuoi verificare se c’è una differenza significativa tra gli stipendi medi raggruppati per dimensione dell’azienda.

Ricorda: nel tuo workspace è già presente una SparkSession chiamata spark!

Questo esercizio fa parte del corso

Introduzione a PySpark

Visualizza il corso

Istruzioni dell'esercizio

  • Carica un file CSV come DataFrame e inferisci lo schema.
  • Restituisci il conteggio del numero di righe.
  • Raggruppa per la colonna company_size e calcola lo stipendio medio con salary_in_usd.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Load the CSV file into a DataFrame
salaries_df = ____("salaries.csv", header=True, inferSchema=____)

# Count the total number of rows
row_count = salaries_df.____
print(f"Total rows: {row_count}")

# Group by company size and calculate the average of salaries
salaries_df.____("company_size").____({"salary_in_usd": "avg"}).show()
salaries_df.show()
Modifica ed esegui il codice