Definieren eines Schemas
Die Erstellung eines definierten Schemas hilft bei der Datenqualität und der Importleistung. Wie in der Lektion erwähnt, werden wir ein einfaches Schema erstellen, um die folgenden Spalten einzulesen:
- Name
- Alter
- Stadt
Die Spalten Name
und City
sind StringType()
und die Spalte Age
ist ein IntegerType()
.
Diese Übung ist Teil des Kurses
Daten bereinigen mit PySpark
Anleitung zur Übung
- Importiere
*
aus der Bibliothekpyspark.sql.types
. - Definiere ein neues Schema mit der Methode
StructType
. - Definiere eine
StructField
fürname
,age
undcity
. Jedes Feld sollte dem richtigen Datentyp entsprechen und nichtnullable
sein.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import the pyspark.sql.types library
____
# Define a new schema using the StructType method
people_schema = ____([
# Define a StructField for each field
StructField('name', ____, False),
____('____', IntegerType(), ____)
____
])