Problème de données sur les pipelines
Après avoir créé votre pipeline rapide, vous fournissez le fichier json à un analyste de votre équipe. Après avoir chargé les données et effectué quelques tâches exploratoires, l'analyste vous indique qu'il y a un problème dans l'ensemble de données lorsqu'il essaie de trier les données relatives à la durée. Elle ne sait pas exactement quel est le problème, si ce n'est que l'opération de tri ne fonctionne pas comme prévu.
Date Flight Number Airport Duration ID
09/30/2015 2287 ANC 409 107962
12/28/2015 1408 OKC 41 141917
08/11/2015 2287 ANC 410 87978
Après analyse des données, quelle commande permettrait de résoudre le problème ?
Cet exercice fait partie du cours
Nettoyer des données avec PySpark
Exercice interactif pratique
Passez de la théorie à la pratique avec l’un de nos exercices interactifs
