Eine CSV einlesen und Aggregationen durchführen
du hast eine Tabelle mit Gehältern von Data Scientists aus Unternehmen verschiedener Größen, von klein bis groß. du möchtest prüfen, ob es einen deutlichen Unterschied zwischen den Durchschnittsgehältern nach Unternehmensgröße gibt.
Zur Erinnerung: In deinem Workspace gibt es bereits eine SparkSession namens spark!
Diese Übung ist Teil des Kurses
Einführung in PySpark
Anleitung zur Übung
- Lade eine CSV-Datei als DataFrame und lasse das Schema automatisch erkennen.
- Gib die Anzahl der Zeilen zurück.
- Gruppiere nach der Spalte
company_sizeund berechne das Durchschnittsgehalt übersalary_in_usd.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Load the CSV file into a DataFrame
salaries_df = ____("salaries.csv", header=True, inferSchema=____)
# Count the total number of rows
row_count = salaries_df.____
print(f"Total rows: {row_count}")
# Group by company size and calculate the average of salaries
salaries_df.____("company_size").____({"salary_in_usd": "avg"}).show()
salaries_df.show()