Honden parsen
Je hebt al flink wat opgeschoond in de oorspronkelijke gegevensset, maar nu moet je de data wat dieper analyseren. Er zijn meerdere vragen gekomen over het type honden dat op een afbeelding te zien is en enkele details over de afbeeldingen. Je beseft dat je om deze vragen te beantwoorden de data naar een specifiek type moet verwerken. Voor je daarmee kunt werken, moet je een schema/type maken om de hondgegevens te representeren.
De DataFrame joined_df is zoals je die voor het laatst hebt gedefinieerd, en pyspark.sql.types is al geïmporteerd.
Deze oefening maakt deel uit van de cursus
Data opschonen met PySpark
Oefeninstructies
- Selecteer de kolom met de honddetails uit de DataFrame en laat de eerste 10 niet-afgekorte rijen zien.
- Maak een nieuw schema zoals je eerder hebt gedaan, met breed, start_x, start_y, end_x en end_y als namen. Zorg dat je de juiste gegevenstypen voor elk veld in het schema opgeeft (elke numerieke waarde is een integer).
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Select the dog details and show 10 untruncated rows
print(joined_df.____.show(____, truncate=____))
# Define a schema type for the details in the dog list
DogType = ____([
StructField("breed", ____, False),
StructField("start_x", ____, False),
____,
____,
____
])