Probleem met pijplijndata
Na het maken van je snelle pijplijn geef je het json-bestand aan een analist in je team. Na het laden van de data en een paar verkennende taken zegt de analist dat er een probleem in de gegevensset zit bij het sorteren van de duurgegevens. Ze weet niet precies wat er misgaat, behalve dat de sorteerbewerking niet werkt zoals verwacht.
Date Flight Number Airport Duration ID
09/30/2015 2287 ANC 409 107962
12/28/2015 1408 OKC 41 141917
08/11/2015 2287 ANC 410 87978
Welke opdracht zou, na het analyseren van de data, het probleem oplossen?
Deze oefening maakt deel uit van de cursus
Data opschonen met PySpark
Praktische interactieve oefening
Zet theorie om in actie met een van onze interactieve oefeningen.
Begin met trainen