LoslegenKostenlos loslegen

Ein Schema definieren

Ein klar definiertes Schema verbessert die Datenqualität und die Importleistung. Wie in der Lektion erwähnt, erstellen wir ein einfaches Schema, um die folgenden Spalten einzulesen:

  • Name
  • Age
  • City

Die Spalten Name und City sind vom Typ StringType(), und die Spalte Age ist vom Typ IntegerType().

Diese Übung ist Teil des Kurses

Datenbereinigung mit PySpark

Kurs anzeigen

Anleitung zur Übung

  • Importiere * aus der Bibliothek pyspark.sql.types.
  • Definiere ein neues Schema mit der Methode StructType.
  • Definiere je ein StructField für name, age und city. Jedes Feld soll dem korrekten Datentyp entsprechen und nicht nullable sein.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Import the pyspark.sql.types library
____

# Define a new schema using the StructType method
people_schema = ____([
  # Define a StructField for each field
  StructField('name', ____, False),
  ____('____', IntegerType(), ____)
  ____
])
Code bearbeiten und ausführen