LoslegenKostenlos loslegen

Eine CSV lesen und Aggregationen durchführen

Du hast eine Tabelle mit Gehältern von Data Scientists aus Unternehmen unterschiedlicher Größe, von klein bis groß. Du möchtest prüfen, ob es deutliche Unterschiede zwischen den durchschnittlichen Gehältern nach Unternehmensgröße gibt.

Denk daran: In deinem Workspace gibt es bereits eine SparkSession namens spark!

Diese Übung ist Teil des Kurses

Einführung in PySpark

Kurs anzeigen

Anleitung zur Übung

  • Lade eine CSV-Datei als DataFrame und lasse das Schema automatisch erkennen.
  • Gib die Anzahl der Zeilen zurück.
  • Gruppiere nach der Spalte company_size und berechne das durchschnittliche Gehalt mit salary_in_usd.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Load the CSV file into a DataFrame
salaries_df = ____("salaries.csv", header=True, inferSchema=____)

# Count the total number of rows
row_count = salaries_df.____
print(f"Total rows: {row_count}")

# Group by company size and calculate the average of salaries
salaries_df.____("company_size").____({"salary_in_usd": "avg"}).show()
salaries_df.show()
Code bearbeiten und ausführen