CommencerCommencer gratuitement

Analyse des chiens

Vous avez effectué un travail de nettoyage considérable sur l'ensemble de données initial, mais vous devez maintenant analyser les données de manière plus approfondie. Plusieurs questions ont été soulevées concernant le type de chiens vus sur une image et certains détails concernant les images. Vous vous rendez compte que pour répondre à ces questions, vous devez traiter les données selon un type spécifique. Avant de pouvoir l'utiliser, vous devez créer un schéma / type pour représenter les détails du chien.

Le DataFrame joined_df est tel que vous l'avez défini la dernière fois, et les pyspark.sql.types ont tous été importés.

Cet exercice fait partie du cours

Nettoyer des données avec PySpark

Afficher le cours

Instructions

  • Sélectionnez la colonne représentant les détails du chien dans le DataFrame et affichez les 10 premières lignes non tronquées.
  • Créez un nouveau schéma comme vous l'avez fait précédemment, en utilisant race, startx, starty, endx et endy comme noms. Veillez à spécifier les types de données appropriés pour chaque champ du schéma (toute valeur numérique est un nombre entier).

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Select the dog details and show 10 untruncated rows
print(joined_df.____.show(____, truncate=____))

# Define a schema type for the details in the dog list
DogType = ____([
	StructField("breed", ____, False),
    StructField("start_x", ____, False),
    ____,
    ____,
    ____
])
Modifier et exécuter le code