Volkszählungsdaten laden
Lass uns dein erstes PySpark-DataFrame erstellen! Die Datei adult_reduced.csv enthält eine Gruppierung von Erwachsenen anhand verschiedener demografischer Kategorien. Diese Daten wurden aus der US-Volkszählung abgeleitet. Insgesamt gibt es 32562 Gruppierungen von Erwachsenen.
Wir sollten die CSV laden und uns das resultierende Schema ansehen.
Datenverzeichnis:
| Variable | Beschreibung |
|---|---|
| age | Alter der Person |
| education_num | Bildungsniveau (Abschluss) |
| marital_status | Familienstand |
| occupation | Beruf |
| income | Kategorisiertes Einkommen |
Diese Übung ist Teil des Kurses
Einführung in PySpark
Anleitung zur Übung
- Erstelle ein PySpark-DataFrame aus der Datei
"adult_reduced.csv"mit der Methodespark.read.csv(). - Zeige das resultierende DataFrame an.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Read in the CSV
census_adult = ____.____.____(____)
# Show the DataFrame
census_adult.____