Ein Schema definieren
Ein klar definiertes Schema verbessert die Datenqualität und die Importleistung. Wie in der Lektion erwähnt, erstellen wir ein einfaches Schema, um die folgenden Spalten einzulesen:
- Name
- Age
- City
Die Spalten Name und City sind vom Typ StringType(), und die Spalte Age ist vom Typ IntegerType().
Diese Übung ist Teil des Kurses
<Kurs>Datenbereinigung mit PySpark</Kurs>Übungsanweisungen
- Importiere
*aus der Bibliothekpyspark.sql.types. - Definiere ein neues Schema mit der Methode
StructType. - Definiere je ein
StructFieldfürname,ageundcity. Jedes Feld soll dem korrekten Datentyp entsprechen und nichtnullablesein.
Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Import the pyspark.sql.types library
____
# Define a new schema using the StructType method
people_schema = ____([
# Define a StructField for each field
StructField('name', ____, False),
____('____', IntegerType(), ____)
____
])