LoslegenKostenlos starten

Problem mit Pipeline-Daten

Nachdem du eine schnelle Pipeline erstellt hast, gibst du die json-Datei an eine Analystin in deinem Team weiter. Nach dem Laden der Daten und ein paar explorativen Schritten meldet sie ein Problem im Datensatz, wenn sie versucht, die Dauer-Daten zu sortieren. Sie ist sich nicht sicher, was genau das Problem ist – nur, dass die Sortierung nicht wie erwartet funktioniert.

Date          Flight Number   Airport     Duration    ID

09/30/2015    2287            ANC         409         107962
12/28/2015    1408            OKC         41          141917
08/11/2015    2287            ANC         410         87978

Welche Anweisung würde das Problem nach deiner Analyse beheben?

Diese Übung ist Teil des Kurses

<Kurs>Datenbereinigung mit PySpark</Kurs>
Kurs ansehen

Interaktive praktische Übung

Verwandle Theorie mit einer unserer interaktiven Übungen in die Praxis

Übung starten