LoslegenKostenlos loslegen

Definieren eines Schemas

Die Erstellung eines definierten Schemas hilft bei der Datenqualität und der Importleistung. Wie in der Lektion erwähnt, werden wir ein einfaches Schema erstellen, um die folgenden Spalten einzulesen:

  • Name
  • Alter
  • Stadt

Die Spalten Name und City sind StringType() und die Spalte Age ist ein IntegerType().

Diese Übung ist Teil des Kurses

Daten bereinigen mit PySpark

Kurs anzeigen

Anleitung zur Übung

  • Importiere * aus der Bibliothek pyspark.sql.types.
  • Definiere ein neues Schema mit der Methode StructType.
  • Definiere eine StructField für name, age und city. Jedes Feld sollte dem richtigen Datentyp entsprechen und nicht nullable sein.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Import the pyspark.sql.types library
____

# Define a new schema using the StructType method
people_schema = ____([
  # Define a StructField for each field
  StructField('name', ____, False),
  ____('____', IntegerType(), ____)
  ____
])
Code bearbeiten und ausführen