Définition d'un schéma
La création d'un schéma défini contribue à la qualité des données et à la performance de l'importation. Comme indiqué dans la leçon, nous allons créer un schéma simple pour lire les colonnes suivantes :
- Name
- Âge
- Ville
Les colonnes Name
et City
sont StringType()
et la colonne Age
est IntegerType()
.
Cet exercice fait partie du cours
Nettoyer des données avec PySpark
Instructions
- Importez
*
depuis la bibliothèquepyspark.sql.types
. - Définissez un nouveau schéma à l'aide de la méthode
StructType
. - Définissez un
StructField
pourname
,age
, etcity
. Chaque champ doit correspondre au type de données correct et ne pas êtrenullable
.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import the pyspark.sql.types library
____
# Define a new schema using the StructType method
people_schema = ____([
# Define a StructField for each field
StructField('name', ____, False),
____('____', IntegerType(), ____)
____
])