Een CSV inlezen en aggregaties uitvoeren
Je hebt een spreadsheet met salarissen van Data Scientists bij bedrijven variërend van klein tot groot. Je wilt zien of er een groot verschil is tussen de gemiddelde salarissen, gegroepeerd naar bedrijfsomvang.
Onthoud: er is al een SparkSession met de naam spark in je werkruimte!
Deze oefening maakt deel uit van de cursus
Introductie tot PySpark
Oefeninstructies
- Laad een csv-bestand als DataFrame en laat het schema afleiden.
- Geef het aantal rijen terug.
- Groepeer op de kolom
company_sizeen bereken het gemiddelde salaris metsalary_in_usd.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Load the CSV file into a DataFrame
salaries_df = ____("salaries.csv", header=True, inferSchema=____)
# Count the total number of rows
row_count = salaries_df.____
print(f"Total rows: {row_count}")
# Group by company size and calculate the average of salaries
salaries_df.____("company_size").____({"salary_in_usd": "avg"}).show()
salaries_df.show()