CommencerCommencer gratuitement

Définir un schéma

Créer un schéma défini améliore la qualité des données et les performances d’import. Comme mentionné dans la leçon, nous allons créer un schéma simple pour lire les colonnes suivantes :

  • Name
  • Age
  • City

Les colonnes Name et City sont de type StringType() et la colonne Age est de type IntegerType().

Cet exercice fait partie du cours

Nettoyer des données avec PySpark

Afficher le cours

Instructions

  • Importez * depuis la bibliothèque pyspark.sql.types.
  • Définissez un nouveau schéma avec la méthode StructType.
  • Définissez un StructField pour name, age et city. Chaque champ doit correspondre au bon type de données et ne pas être nullable.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import the pyspark.sql.types library
____

# Define a new schema using the StructType method
people_schema = ____([
  # Define a StructField for each field
  StructField('name', ____, False),
  ____('____', IntegerType(), ____)
  ____
])
Modifier et exécuter le code