Aan de slagGa gratis aan de slag

RDD's verzamelen

In deze oefening werk je met zowel RDD's als DataFrames in PySpark. Het doel is om gegevens te groeperen en aggregaties uit te voeren met zowel RDD-bewerkingen als DataFrame-methoden.

Je laadt een CSV-bestand met salarisgegevens van medewerkers in PySpark als een RDD. Daarna groepeer je op het ervaringsniveau en bereken je het maximale salaris per ervaringsniveau vanuit een DataFrame. Zo zie je de sterke punten van beide dataformaten.

De gegevensset die je gebruikt gaat over Data Scientist Salaries, dus het ontdekken van markttrends is in je eigen belang! We hebben de data al voor je geladen en genormaliseerd! Denk eraan: er is al een SparkSession met de naam spark in je werkruimte!

Deze oefening maakt deel uit van de cursus

Introductie tot PySpark

Cursus bekijken

Oefeninstructies

  • Maak een RDD op basis van een DataFrame.
  • Verzamel en toon de resultaten van de RDD en de DataFrame.
  • Groepeer op "experience_level" en bereken het maximale salaris per niveau.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Create an RDD from the df_salaries
rdd_salaries = df_salaries.____

# Collect and print the results
print(rdd_salaries.____)

# Group by the experience level and calculate the maximum salary
dataframe_results = df_salaries.____("experience_level").____({"salary_in_usd": 'max'})

# Show the results
dataframe_results.____
Code bewerken en uitvoeren