Schema schreiben
Wir haben Schemas jetzt auf mehrere Arten geladen. Also lass uns ein Schema direkt definieren. Wir verwenden ein Datendiagramm:
| Variable | Description |
|---|---|
| age | Alter der Person |
| education_num | Ausbildungsniveau (numerisch) |
| marital_status | Familienstand |
| occupation | Beruf |
| income | Einkommen (kategorisch) |
Diese Übung ist Teil des Kurses
Einführung in PySpark
Anleitung zur Übung
- Gib das Datenschema an, mit Spaltennamen (
age,education_num,marital_status,occupationundincome) und Spaltentypen, und setze ein Komma für das Argumentsep=. - Lies Daten aus einer kommagetrennten Datei namens
adult_reduced_100.csvein. - Gib das Schema für das resultierende DataFrame aus.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
from pyspark.sql.types import StructType, StructField, IntegerType, StringType
# Fill in the schema with the columns you need from the exercise instructions
schema = StructType([____("____",____()),
____("____",____()),
____("marital_status",StringType()),
StructField("____",____()),
____("____",____()),
])
# Read in the CSV, using the schema you defined above
census_adult = spark.read.csv("adult_reduced_100.csv", sep='____', header=False, schema=schema)
# Print out the schema
census_adult.____