LoslegenKostenlos loslegen

Problem mit Pipeline-Daten

Nachdem du deine Quick-Pipeline erstellt hast, gibst du die json-Datei an einen Analysten in deinem Team weiter. Nachdem du die Daten geladen und ein paar Erkundungsaufgaben durchgeführt hast, meldet dir der Analyst, dass es ein Problem im Datensatz gibt, während er versucht, die Dauerdaten zu sortieren. Sie ist sich nicht sicher, woran es liegt, dass der Sortiervorgang nicht wie erwartet funktioniert.

Date          Flight Number   Airport     Duration    ID

09/30/2015    2287            ANC         409         107962
12/28/2015    1408            OKC         41          141917
08/11/2015    2287            ANC         410         87978

Welcher Befehl würde nach der Analyse der Daten das Problem beheben?

Diese Übung ist Teil des Kurses

Daten bereinigen mit PySpark

Kurs anzeigen

Interaktive Übung

Setze die Theorie in einer unserer interaktiven Übungen in die Praxis um

Übung starten