Analyse des chiens
Vous avez effectué un travail de nettoyage considérable sur l'ensemble de données initial, mais vous devez maintenant analyser les données de manière plus approfondie. Plusieurs questions ont été soulevées concernant le type de chiens vus sur une image et certains détails concernant les images. Vous vous rendez compte que pour répondre à ces questions, vous devez traiter les données selon un type spécifique. Avant de pouvoir l'utiliser, vous devez créer un schéma / type pour représenter les détails du chien.
Le DataFrame joined_df
est tel que vous l'avez défini la dernière fois, et les pyspark.sql.types
ont tous été importés.
Cet exercice fait partie du cours
Nettoyer des données avec PySpark
Instructions
- Sélectionnez la colonne représentant les détails du chien dans le DataFrame et affichez les 10 premières lignes non tronquées.
- Créez un nouveau schéma comme vous l'avez fait précédemment, en utilisant race, startx, starty, endx et endy comme noms. Veillez à spécifier les types de données appropriés pour chaque champ du schéma (toute valeur numérique est un nombre entier).
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Select the dog details and show 10 untruncated rows
print(joined_df.____.show(____, truncate=____))
# Define a schema type for the details in the dog list
DogType = ____([
StructField("breed", ____, False),
StructField("start_x", ____, False),
____,
____,
____
])