LoslegenKostenlos loslegen

Schemafestlegung

Wir haben Schemata jetzt auf mehrere Arten geladen. Nun definieren wir ein Schema direkt. Dafür nutzen wir ein Data dictionary:

Variable Beschreibung
age Alter der Person
education_num Bildung (Anzahl Jahre)
marital_status Familienstand
occupation Beruf
income Einkommen

Diese Übung ist Teil des Kurses

Einführung in PySpark

Kurs anzeigen

Anleitung zur Übung

  • Gib das Datenschema an, inklusive Spaltennamen (age,education_num,marital_status,occupation und income) und die Spaltentypen, und setze ein Komma für das Argument sep=.
  • Lies Daten aus einer durch Kommas getrennten Datei namens adult_reduced_100.csv ein.
  • Gib das Schema für den resultierenden DataFrame aus.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

from pyspark.sql.types import StructType, StructField, IntegerType, StringType

# Fill in the schema with the columns you need from the exercise instructions
schema = StructType([____("____",____()),
                     ____("____",____()),
                     ____("marital_status",StringType()),
                     StructField("____",____()),
                     ____("____",____()),
                    ])

# Read in the CSV, using the schema you defined above
census_adult = spark.read.csv("adult_reduced_100.csv", sep='____', header=False, schema=schema)

# Print out the schema
census_adult.____
Code bearbeiten und ausführen