Definieren eines Schemas
Die Erstellung eines definierten Schemas hilft bei der Datenqualität und der Importleistung. Wie in der Lektion erwähnt, werden wir ein einfaches Schema erstellen, um die folgenden Spalten einzulesen:
- Name
- Alter
- Stadt
Die Spalten Name und City sind StringType() und die Spalte Age ist ein IntegerType().
Diese Übung ist Teil des Kurses
Daten bereinigen mit PySpark
Anleitung zur Übung
- Importiere
*aus der Bibliothekpyspark.sql.types. - Definiere ein neues Schema mit der Methode
StructType. - Definiere eine
StructFieldfürname,ageundcity. Jedes Feld sollte dem richtigen Datentyp entsprechen und nichtnullablesein.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import the pyspark.sql.types library
____
# Define a new schema using the StructType method
people_schema = ____([
# Define a StructField for each field
StructField('name', ____, False),
____('____', IntegerType(), ____)
____
])