Ein Schema definieren
Ein klar definiertes Schema verbessert die Datenqualität und die Importleistung. Wie in der Lektion erwähnt, erstellen wir ein einfaches Schema, um die folgenden Spalten einzulesen:
- Name
- Age
- City
Die Spalten Name und City sind vom Typ StringType(), und die Spalte Age ist vom Typ IntegerType().
Diese Übung ist Teil des Kurses
Datenbereinigung mit PySpark
Anleitung zur Übung
- Importiere
*aus der Bibliothekpyspark.sql.types. - Definiere ein neues Schema mit der Methode
StructType. - Definiere je ein
StructFieldfürname,ageundcity. Jedes Feld soll dem korrekten Datentyp entsprechen und nichtnullablesein.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import the pyspark.sql.types library
____
# Define a new schema using the StructType method
people_schema = ____([
# Define a StructField for each field
StructField('name', ____, False),
____('____', IntegerType(), ____)
____
])