CSV-Daten lesen und Aggregationen durchführen
Du hast eine Tabelle mit Gehältern von Data Scientists aus Unternehmen unterschiedlicher Größe, von klein bis groß. Du möchtest prüfen, ob es deutliche Unterschiede zwischen den durchschnittlichen Gehältern nach Unternehmensgröße gibt.
Denke daran: In deinem Workspace gibt es bereits eine SparkSession namens spark!
Diese Übung ist Teil des Kurses
<Kurs>Einführung in PySpark</Kurs>Übungsanweisungen
- Lade eine CSV-Datei als DataFrame und lasse das Schema automatisch erkennen.
- Gib die Anzahl der Zeilen zurück.
- Gruppiere nach der Spalte
company_sizeund berechne das durchschnittliche Gehalt mitsalary_in_usd.
Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Load the CSV file into a DataFrame
salaries_df = ____("salaries.csv", header=True, inferSchema=____)
# Count the total number of rows
row_count = salaries_df.____
print(f"Total rows: {row_count}")
# Group by company size and calculate the average of salaries
salaries_df.____("company_size").____({"salary_in_usd": "avg"}).show()
salaries_df.show()