LoslegenKostenlos loslegen

Schema schreiben

Wir haben Schemas jetzt auf mehrere Arten geladen. Also lass uns ein Schema direkt definieren. Wir verwenden ein Datendiagramm:

Variable Description
age Alter der Person
education_num Ausbildungsniveau (numerisch)
marital_status Familienstand
occupation Beruf
income Einkommen (kategorisch)

Diese Übung ist Teil des Kurses

Einführung in PySpark

Kurs anzeigen

Anleitung zur Übung

  • Gib das Datenschema an, mit Spaltennamen (age,education_num,marital_status,occupation und income) und Spaltentypen, und setze ein Komma für das Argument sep=.
  • Lies Daten aus einer kommagetrennten Datei namens adult_reduced_100.csv ein.
  • Gib das Schema für das resultierende DataFrame aus.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

from pyspark.sql.types import StructType, StructField, IntegerType, StringType

# Fill in the schema with the columns you need from the exercise instructions
schema = StructType([____("____",____()),
                     ____("____",____()),
                     ____("marital_status",StringType()),
                     StructField("____",____()),
                     ____("____",____()),
                    ])

# Read in the CSV, using the schema you defined above
census_adult = spark.read.csv("adult_reduced_100.csv", sep='____', header=False, schema=schema)

# Print out the schema
census_adult.____
Code bearbeiten und ausführen