Hundeparsing
Du hast den ursprünglichen Datensatz gründlich bereinigt, aber jetzt musst du die Daten etwas genauer analysieren. Es gibt jetzt einige Fragen zu den Hunden, die auf einem Bild zu sehen sind, und einige Details zu den Bildern. Um diese Fragen zu beantworten, musst du die Daten zu einem bestimmten Typ verarbeiten. Bevor du es verwenden kannst, musst du ein Schema / einen Typ erstellen, um die Hundedetails zu repräsentieren.
Der DataFrame joined_df
ist so, wie du ihn zuletzt definiert hast, und die pyspark.sql.types
wurden alle importiert.
Diese Übung ist Teil des Kurses
Daten bereinigen mit PySpark
Anleitung zur Übung
- Wähle die Spalte mit den Hundedetails aus dem DataFrame aus und zeige die ersten 10 ungekürzten Zeilen an.
- Erstelle ein neues Schema, wie du es zuvor getan hast, und verwende als Namen breed, startx, starty, endx und endy. Achte darauf, dass du die richtigen Datentypen für jedes Feld im Schema angibst (jeder Zahlenwert ist eine ganze Zahl).
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Select the dog details and show 10 untruncated rows
print(joined_df.____.show(____, truncate=____))
# Define a schema type for the details in the dog list
DogType = ____([
StructField("breed", ____, False),
StructField("start_x", ____, False),
____,
____,
____
])