CommencerCommencer gratuitement

Problème de données sur les pipelines

Après avoir créé votre pipeline rapide, vous fournissez le fichier json à un analyste de votre équipe. Après avoir chargé les données et effectué quelques tâches exploratoires, l'analyste vous indique qu'il y a un problème dans l'ensemble de données lorsqu'il essaie de trier les données relatives à la durée. Elle ne sait pas exactement quel est le problème, si ce n'est que l'opération de tri ne fonctionne pas comme prévu.

Date          Flight Number   Airport     Duration    ID

09/30/2015    2287            ANC         409         107962
12/28/2015    1408            OKC         41          141917
08/11/2015    2287            ANC         410         87978

Après analyse des données, quelle commande permettrait de résoudre le problème ?

Cet exercice fait partie du cours

Nettoyer des données avec PySpark

Afficher le cours

Exercice interactif pratique

Passez de la théorie à la pratique avec l’un de nos exercices interactifs

Commencer l’exercice