LoslegenKostenlos loslegen

Volkszählungsdaten laden

Lass uns dein erstes PySpark-DataFrame erstellen! Die Datei adult_reduced.csv enthält eine Gruppierung von Erwachsenen anhand verschiedener demografischer Kategorien. Diese Daten wurden aus der US-Volkszählung abgeleitet. Insgesamt gibt es 32562 Gruppierungen von Erwachsenen.

Wir sollten die CSV laden und uns das resultierende Schema ansehen.

Datenverzeichnis:

Variable Beschreibung
age Alter der Person
education_num Bildungsniveau (Abschluss)
marital_status Familienstand
occupation Beruf
income Kategorisiertes Einkommen

Diese Übung ist Teil des Kurses

Einführung in PySpark

Kurs anzeigen

Anleitung zur Übung

  • Erstelle ein PySpark-DataFrame aus der Datei "adult_reduced.csv" mit der Methode spark.read.csv().
  • Zeige das resultierende DataFrame an.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Read in the CSV
census_adult = ____.____.____(____)

# Show the DataFrame
census_adult.____
Code bearbeiten und ausführen