Een schema definiëren
Een gedefinieerd schema maken helpt bij de datakwaliteit en de importprestaties. Zoals in de les genoemd, maken we een eenvoudig schema om de volgende kolommen in te lezen:
- Name
- Age
- City
De kolommen Name en City zijn van het type StringType() en de kolom Age is een IntegerType().
Deze oefening maakt deel uit van de cursus
Data opschonen met PySpark
Oefeninstructies
- Importeer
*uit de bibliotheekpyspark.sql.types. - Definieer een nieuw schema met de methode
StructType. - Definieer een
StructFieldvoorname,ageencity. Elk veld moet overeenkomen met het juiste datatype en nietnullablezijn.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import the pyspark.sql.types library
____
# Define a new schema using the StructType method
people_schema = ____([
# Define a StructField for each field
StructField('name', ____, False),
____('____', IntegerType(), ____)
____
])