Problème de données dans la pipeline
Après avoir créé votre petite pipeline, vous fournissez le fichier json à une analyste de votre équipe. Après avoir chargé les données et réalisé quelques explorations, elle vous indique qu’il y a un problème dans le jeu de données lorsqu’elle tente de trier la durée. Elle ne sait pas exactement d’où vient le problème, si ce n’est que l’opération de tri ne fonctionne pas comme prévu.
Date Flight Number Airport Duration ID
09/30/2015 2287 ANC 409 107962
12/28/2015 1408 OKC 41 141917
08/11/2015 2287 ANC 410 87978
Après avoir analysé les données, quelle commande corrigerait le problème ?
Cet exercice fait partie du cours
Nettoyer des données avec PySpark
Exercice interactif pratique
Passez de la théorie à la pratique avec l’un de nos exercices interactifs
Commencer l’exercice