Problem mit Pipeline-Daten
Nachdem du eine schnelle Pipeline erstellt hast, gibst du die json-Datei an eine Analystin in deinem Team weiter. Nach dem Laden der Daten und ein paar explorativen Schritten meldet sie ein Problem im Datensatz, wenn sie versucht, die Dauer-Daten zu sortieren. Sie ist sich nicht sicher, was genau das Problem ist – nur, dass die Sortierung nicht wie erwartet funktioniert.
Date Flight Number Airport Duration ID
09/30/2015 2287 ANC 409 107962
12/28/2015 1408 OKC 41 141917
08/11/2015 2287 ANC 410 87978
Welche Anweisung würde das Problem nach deiner Analyse beheben?
Diese Übung ist Teil des Kurses
Datenbereinigung mit PySpark
Interaktive Übung
In dieser interaktiven Übung kannst du die Theorie in die Praxis umsetzen.
Übung starten