LoslegenKostenlos loslegen

Problem mit Pipeline-Daten

Nachdem du eine schnelle Pipeline erstellt hast, gibst du die json-Datei an eine Analystin in deinem Team weiter. Nach dem Laden der Daten und ein paar explorativen Schritten meldet sie ein Problem im Datensatz, wenn sie versucht, die Dauer-Daten zu sortieren. Sie ist sich nicht sicher, was genau das Problem ist – nur, dass die Sortierung nicht wie erwartet funktioniert.

Date          Flight Number   Airport     Duration    ID

09/30/2015    2287            ANC         409         107962
12/28/2015    1408            OKC         41          141917
08/11/2015    2287            ANC         410         87978

Welche Anweisung würde das Problem nach deiner Analyse beheben?

Diese Übung ist Teil des Kurses

Datenbereinigung mit PySpark

Kurs anzeigen

Interaktive Übung

In dieser interaktiven Übung kannst du die Theorie in die Praxis umsetzen.

Übung starten