Aan de slagGa gratis aan de slag

Een CSV inlezen en aggregaties uitvoeren

Je hebt een spreadsheet met salarissen van Data Scientists bij bedrijven variërend van klein tot groot. Je wilt zien of er een groot verschil is tussen de gemiddelde salarissen, gegroepeerd naar bedrijfsomvang.

Onthoud: er is al een SparkSession met de naam spark in je werkruimte!

Deze oefening maakt deel uit van de cursus

Introductie tot PySpark

Cursus bekijken

Oefeninstructies

  • Laad een csv-bestand als DataFrame en laat het schema afleiden.
  • Geef het aantal rijen terug.
  • Groepeer op de kolom company_size en bereken het gemiddelde salaris met salary_in_usd.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Load the CSV file into a DataFrame
salaries_df = ____("salaries.csv", header=True, inferSchema=____)

# Count the total number of rows
row_count = salaries_df.____
print(f"Total rows: {row_count}")

# Group by company size and calculate the average of salaries
salaries_df.____("company_size").____({"salary_in_usd": "avg"}).show()
salaries_df.show()
Code bewerken en uitvoeren