Analyse des chiens
Vous avez déjà effectué un nettoyage conséquent sur le jeu de données initial, mais vous devez maintenant analyser les données plus en profondeur. Plusieurs questions se posent désormais au sujet du type de chiens présents sur une image et de certains détails concernant ces images. Vous réalisez que, pour y répondre, vous devez transformer les données en un type spécifique. Avant de pouvoir les utiliser, vous devez créer un schéma/type pour représenter les détails des chiens.
Le DataFrame joined_df est tel que vous l'avez défini précédemment, et tous les pyspark.sql.types ont été importés.
Cet exercice fait partie du cours
Nettoyer des données avec PySpark
Instructions
- Sélectionnez la colonne représentant les détails des chiens depuis le DataFrame et affichez les 10 premières lignes non tronquées.
- Créez un nouveau schéma comme vous l'avez fait précédemment, en utilisant breed, start_x, start_y, end_x et end_y comme noms. Assurez-vous de spécifier les bons types de données pour chaque champ du schéma (toute valeur numérique est un entier).
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Select the dog details and show 10 untruncated rows
print(joined_df.____.show(____, truncate=____))
# Define a schema type for the details in the dog list
DogType = ____([
StructField("breed", ____, False),
StructField("start_x", ____, False),
____,
____,
____
])