Zensusdaten laden
Lass uns deinen ersten PySpark-DataFrame erstellen! Die Datei adult_reduced.csv enthält eine Gruppierung von Erwachsenen anhand verschiedener demografischer Kategorien. Diese Daten wurden aus dem US Census übernommen. Insgesamt gibt es 32.562 Gruppierungen von Erwachsenen.
Wir sollten die CSV laden und uns das resultierende Schema ansehen.
Data dictionary:
| Variable | Beschreibung |
|---|---|
| age | Alter der Person |
| education_num | Bildung (Anzahl Jahre) |
| marital_status | Familienstand |
| occupation | Beruf |
| income | Einkommen |
Diese Übung ist Teil des Kurses
Einführung in PySpark
Anleitung zur Übung
- Erstelle einen PySpark-DataFrame aus der Datei
"adult_reduced.csv"mit der Methodespark.read.csv(). - Zeige den resultierende DataFrame an.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Read in the CSV
census_adult = ____.____.____(____)
# Show the DataFrame
census_adult.____