Problème de données dans la pipeline
Après avoir créé votre petite pipeline, vous fournissez le fichier json à une analyste de votre équipe. Après avoir chargé les données et réalisé quelques explorations, elle vous indique qu’il y a un problème dans le jeu de données lorsqu’elle tente de trier la durée. Elle ne sait pas exactement d’où vient le problème, si ce n’est que l’opération de tri ne fonctionne pas comme prévu.
Date Flight Number Airport Duration ID
09/30/2015 2287 ANC 409 107962
12/28/2015 1408 OKC 41 141917
08/11/2015 2287 ANC 410 87978
Après avoir analysé les données, quelle commande corrigerait le problème ?
Cet exercice fait partie du cours
<cours>Nettoyer des données avec PySpark</cours>Exercice interactif pratique
Transformez la théorie en action avec l’un de nos exercices interactifs
Commencer l’exercice