Aan de slagGa gratis aan de slag

Probleem met pijplijndata

Na het maken van je snelle pijplijn geef je het json-bestand aan een analist in je team. Na het laden van de data en een paar verkennende taken zegt de analist dat er een probleem in de gegevensset zit bij het sorteren van de duurgegevens. Ze weet niet precies wat er misgaat, behalve dat de sorteerbewerking niet werkt zoals verwacht.

Date          Flight Number   Airport     Duration    ID

09/30/2015    2287            ANC         409         107962
12/28/2015    1408            OKC         41          141917
08/11/2015    2287            ANC         410         87978

Welke opdracht zou, na het analyseren van de data, het probleem oplossen?

Deze oefening maakt deel uit van de cursus

Data opschonen met PySpark

Cursus bekijken

Praktische interactieve oefening

Zet theorie om in actie met een van onze interactieve oefeningen.

Begin met trainen