Problem mit Pipeline-Daten
Nachdem du eine schnelle Pipeline erstellt hast, gibst du die json-Datei an eine Analystin in deinem Team weiter. Nach dem Laden der Daten und ein paar explorativen Schritten meldet sie ein Problem im Datensatz, wenn sie versucht, die Dauer-Daten zu sortieren. Sie ist sich nicht sicher, was genau das Problem ist – nur, dass die Sortierung nicht wie erwartet funktioniert.
Date Flight Number Airport Duration ID
09/30/2015 2287 ANC 409 107962
12/28/2015 1408 OKC 41 141917
08/11/2015 2287 ANC 410 87978
Welche Anweisung würde das Problem nach deiner Analyse beheben?
Diese Übung ist Teil des Kurses
<Kurs>Datenbereinigung mit PySpark</Kurs>Interaktive praktische Übung
Verwandle Theorie mit einer unserer interaktiven Übungen in die Praxis
Übung starten