Schemafestlegung
Wir haben Schemata jetzt auf mehrere Arten geladen. Nun definieren wir ein Schema direkt. Dafür nutzen wir ein Data dictionary:
| Variable | Beschreibung |
|---|---|
| age | Alter der Person |
| education_num | Bildung (Anzahl Jahre) |
| marital_status | Familienstand |
| occupation | Beruf |
| income | Einkommen |
Diese Übung ist Teil des Kurses
Einführung in PySpark
Anleitung zur Übung
- Gib das Datenschema an, inklusive Spaltennamen (
age,education_num,marital_status,occupationundincome) und die Spaltentypen, und setze ein Komma für das Argumentsep=. - Lies Daten aus einer durch Kommas getrennten Datei namens
adult_reduced_100.csvein. - Gib das Schema für den resultierenden DataFrame aus.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
from pyspark.sql.types import StructType, StructField, IntegerType, StringType
# Fill in the schema with the columns you need from the exercise instructions
schema = StructType([____("____",____()),
____("____",____()),
____("marital_status",StringType()),
StructField("____",____()),
____("____",____()),
])
# Read in the CSV, using the schema you defined above
census_adult = spark.read.csv("adult_reduced_100.csv", sep='____', header=False, schema=schema)
# Print out the schema
census_adult.____