Définir un schéma
Créer un schéma défini améliore la qualité des données et les performances d’import. Comme mentionné dans la leçon, nous allons créer un schéma simple pour lire les colonnes suivantes :
- Name
- Age
- City
Les colonnes Name et City sont de type StringType() et la colonne Age est de type IntegerType().
Cet exercice fait partie du cours
Nettoyer des données avec PySpark
Instructions
- Importez
*depuis la bibliothèquepyspark.sql.types. - Définissez un nouveau schéma avec la méthode
StructType. - Définissez un
StructFieldpourname,ageetcity. Chaque champ doit correspondre au bon type de données et ne pas êtrenullable.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import the pyspark.sql.types library
____
# Define a new schema using the StructType method
people_schema = ____([
# Define a StructField for each field
StructField('name', ____, False),
____('____', IntegerType(), ____)
____
])