LoslegenKostenlos loslegen

Eine CSV einlesen und Aggregationen durchführen

du hast eine Tabelle mit Gehältern von Data Scientists aus Unternehmen verschiedener Größen, von klein bis groß. du möchtest prüfen, ob es einen deutlichen Unterschied zwischen den Durchschnittsgehältern nach Unternehmensgröße gibt.

Zur Erinnerung: In deinem Workspace gibt es bereits eine SparkSession namens spark!

Diese Übung ist Teil des Kurses

Einführung in PySpark

Kurs anzeigen

Anleitung zur Übung

  • Lade eine CSV-Datei als DataFrame und lasse das Schema automatisch erkennen.
  • Gib die Anzahl der Zeilen zurück.
  • Gruppiere nach der Spalte company_size und berechne das Durchschnittsgehalt über salary_in_usd.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Load the CSV file into a DataFrame
salaries_df = ____("salaries.csv", header=True, inferSchema=____)

# Count the total number of rows
row_count = salaries_df.____
print(f"Total rows: {row_count}")

# Group by company size and calculate the average of salaries
salaries_df.____("company_size").____({"salary_in_usd": "avg"}).show()
salaries_df.show()
Code bearbeiten und ausführen