LoslegenKostenlos starten

Ein Schema definieren

Ein klar definiertes Schema verbessert die Datenqualität und die Importleistung. Wie in der Lektion erwähnt, erstellen wir ein einfaches Schema, um die folgenden Spalten einzulesen:

  • Name
  • Age
  • City

Die Spalten Name und City sind vom Typ StringType(), und die Spalte Age ist vom Typ IntegerType().

Diese Übung ist Teil des Kurses

<Kurs>Datenbereinigung mit PySpark</Kurs>
Kurs ansehen

Übungsanweisungen

  • Importiere * aus der Bibliothek pyspark.sql.types.
  • Definiere ein neues Schema mit der Methode StructType.
  • Definiere je ein StructField für name, age und city. Jedes Feld soll dem korrekten Datentyp entsprechen und nicht nullable sein.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Import the pyspark.sql.types library
____

# Define a new schema using the StructType method
people_schema = ____([
  # Define a StructField for each field
  StructField('name', ____, False),
  ____('____', IntegerType(), ____)
  ____
])
Code bearbeiten und ausführen