Zensusdaten laden
Lass uns deinen ersten PySpark-DataFrame erstellen! Die Datei adult_reduced.csv enthält eine Gruppierung von Erwachsenen anhand verschiedener demografischer Kategorien. Diese Daten wurden aus dem US Census übernommen. Insgesamt gibt es 32.562 Gruppierungen von Erwachsenen.
Wir sollten die CSV laden und uns das resultierende Schema ansehen.
Data dictionary:
| Variable | Beschreibung |
|---|---|
| age | Alter der Person |
| education_num | Bildung (Anzahl Jahre) |
| marital_status | Familienstand |
| occupation | Beruf |
| income | Einkommen |
Diese Übung ist Teil des Kurses
<Kurs>Einführung in PySpark</Kurs>Übungsanweisungen
- Erstelle einen PySpark-DataFrame aus der Datei
"adult_reduced.csv"mit der Methodespark.read.csv(). - Zeige den resultierende DataFrame an.
Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Read in the CSV
census_adult = ____.____.____(____)
# Show the DataFrame
census_adult.____