Aan de slagBegin gratis

Een CSV inlezen en aggregaties uitvoeren

Je hebt een spreadsheet met salarissen van Data Scientists bij bedrijven variërend van klein tot groot. Je wilt zien of er een groot verschil is tussen de gemiddelde salarissen, gegroepeerd naar bedrijfsomvang.

Onthoud: er is al een SparkSession met de naam spark in je werkruimte!

Deze oefening maakt deel uit van de cursus

Introductie tot PySpark

Bekijk cursus

Oefeninstructies

  • Laad een csv-bestand als DataFrame en laat het schema afleiden.
  • Geef het aantal rijen terug.
  • Groepeer op de kolom company_size en bereken het gemiddelde salaris met salary_in_usd.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Load the CSV file into a DataFrame
salaries_df = ____("salaries.csv", header=True, inferSchema=____)

# Count the total number of rows
row_count = salaries_df.____
print(f"Total rows: {row_count}")

# Group by company size and calculate the average of salaries
salaries_df.____("company_size").____({"salary_in_usd": "avg"}).show()
salaries_df.show()
Code bewerken en uitvoeren