Raccogliere gli RDD
In questo esercizio lavorerai sia con RDD sia con DataFrame in PySpark. L’obiettivo è raggruppare i dati ed eseguire un’aggregazione usando sia le operazioni sugli RDD sia i metodi dei DataFrame.
Caricherai un file CSV contenente dati sugli stipendi dei dipendenti in PySpark come RDD. Poi effettuerai un group by sul livello di esperienza e calcolerai lo stipendio massimo per ciascun livello di esperienza partendo da un DataFrame. In questo modo vedrai i punti di forza relativi di entrambi i formati dati.
Il dataset che stai usando riguarda gli stipendi dei Data Scientist, quindi scoprire i trend di mercato è nel tuo interesse! Abbiamo già caricato e normalizzato i dati per te! Ricorda che nel tuo workspace c’è già una SparkSession chiamata spark!
Questo esercizio fa parte del corso
Introduzione a PySpark
Istruzioni dell'esercizio
- Crea un RDD a partire da un DataFrame.
- Raccogli e visualizza i risultati dell’RDD e del DataFrame.
- Esegui un group by su
"experience_level"e calcola lo stipendio massimo per ciascuno.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create an RDD from the df_salaries
rdd_salaries = df_salaries.____
# Collect and print the results
print(rdd_salaries.____)
# Group by the experience level and calculate the maximum salary
dataframe_results = df_salaries.____("experience_level").____({"salary_in_usd": 'max'})
# Show the results
dataframe_results.____