CommencerCommencer gratuitement

Définition d'un schéma

La création d'un schéma défini contribue à la qualité des données et à la performance de l'importation. Comme indiqué dans la leçon, nous allons créer un schéma simple pour lire les colonnes suivantes :

  • Name
  • Âge
  • Ville

Les colonnes Name et City sont StringType() et la colonne Age est IntegerType().

Cet exercice fait partie du cours

Nettoyer des données avec PySpark

Afficher le cours

Instructions

  • Importez * depuis la bibliothèque pyspark.sql.types.
  • Définissez un nouveau schéma à l'aide de la méthode StructType.
  • Définissez un StructField pour name, age, et city. Chaque champ doit correspondre au type de données correct et ne pas être nullable.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import the pyspark.sql.types library
____

# Define a new schema using the StructType method
people_schema = ____([
  # Define a StructField for each field
  StructField('name', ____, False),
  ____('____', IntegerType(), ____)
  ____
])
Modifier et exécuter le code