IniziaInizia gratis

Raccogliere gli RDD

In questo esercizio lavorerai sia con RDD sia con DataFrame in PySpark. L’obiettivo è raggruppare i dati ed eseguire un’aggregazione usando sia le operazioni sugli RDD sia i metodi dei DataFrame.

Caricherai un file CSV contenente dati sugli stipendi dei dipendenti in PySpark come RDD. Poi effettuerai un group by sul livello di esperienza e calcolerai lo stipendio massimo per ciascun livello di esperienza partendo da un DataFrame. In questo modo vedrai i punti di forza relativi di entrambi i formati dati.

Il dataset che stai usando riguarda gli stipendi dei Data Scientist, quindi scoprire i trend di mercato è nel tuo interesse! Abbiamo già caricato e normalizzato i dati per te! Ricorda che nel tuo workspace c’è già una SparkSession chiamata spark!

Questo esercizio fa parte del corso

Introduzione a PySpark

Visualizza il corso

Istruzioni dell'esercizio

  • Crea un RDD a partire da un DataFrame.
  • Raccogli e visualizza i risultati dell’RDD e del DataFrame.
  • Esegui un group by su "experience_level" e calcola lo stipendio massimo per ciascuno.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Create an RDD from the df_salaries
rdd_salaries = df_salaries.____

# Collect and print the results
print(rdd_salaries.____)

# Group by the experience level and calculate the maximum salary
dataframe_results = df_salaries.____("experience_level").____({"salary_in_usd": 'max'})

# Show the results
dataframe_results.____
Modifica ed esegui il codice