Problem mit Pipeline-Daten
Nachdem du deine Quick-Pipeline erstellt hast, gibst du die json-Datei an einen Analysten in deinem Team weiter. Nachdem du die Daten geladen und ein paar Erkundungsaufgaben durchgeführt hast, meldet dir der Analyst, dass es ein Problem im Datensatz gibt, während er versucht, die Dauerdaten zu sortieren. Sie ist sich nicht sicher, woran es liegt, dass der Sortiervorgang nicht wie erwartet funktioniert.
Date Flight Number Airport Duration ID
09/30/2015 2287 ANC 409 107962
12/28/2015 1408 OKC 41 141917
08/11/2015 2287 ANC 410 87978
Welcher Befehl würde nach der Analyse der Daten das Problem beheben?
Diese Übung ist Teil des Kurses
Daten bereinigen mit PySpark
Interaktive Übung
Setze die Theorie in einer unserer interaktiven Übungen in die Praxis um
