CommencerCommencer gratuitement

Problème de données dans la pipeline

Après avoir créé votre petite pipeline, vous fournissez le fichier json à une analyste de votre équipe. Après avoir chargé les données et réalisé quelques explorations, elle vous indique qu’il y a un problème dans le jeu de données lorsqu’elle tente de trier la durée. Elle ne sait pas exactement d’où vient le problème, si ce n’est que l’opération de tri ne fonctionne pas comme prévu.

Date          Flight Number   Airport     Duration    ID

09/30/2015    2287            ANC         409         107962
12/28/2015    1408            OKC         41          141917
08/11/2015    2287            ANC         410         87978

Après avoir analysé les données, quelle commande corrigerait le problème ?

Cet exercice fait partie du cours

Nettoyer des données avec PySpark

Afficher le cours

Exercice interactif pratique

Passez de la théorie à la pratique avec l’un de nos exercices interactifs

Commencer l’exercice