Hunde parsen

Du hast bereits eine ganze Menge am ursprünglichen Datensatz bereinigt, musst die Daten jetzt aber genauer analysieren. Es sind einige Fragen zum Typ der Hunde in einem Bild und zu bestimmten Bilddetails aufgetaucht. Dir wird klar, dass du zur Beantwortung dieser Fragen die Daten in einen bestimmten Typ überführen musst. Bevor du sie verwenden kannst, musst du ein Schema/Typ erstellen, um die Hundedetails darzustellen.

Das DataFrame joined_df ist so vorhanden, wie du es zuletzt definiert hast, und die pyspark.sql.types wurden alle importiert.

Diese Übung ist Teil des Kurses

<Kurs>Datenbereinigung mit PySpark</Kurs>

Kurs ansehen

Übungsanweisungen

Wähle die Spalte mit den Hundedetails aus dem DataFrame aus und zeige die ersten 10 nicht gekürzten Zeilen an.
Erstelle ein neues Schema wie zuvor, mit den Namen breed, start_x, start_y, end_x und end_y. Achte darauf, für jedes Feld im Schema die richtigen Datentypen anzugeben (alle Zahlenwerte sind Integer).

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Select the dog details and show 10 untruncated rows
print(joined_df.____.show(____, truncate=____))

# Define a schema type for the details in the dog list
DogType = ____([
	StructField("breed", ____, False),
    StructField("start_x", ____, False),
    ____,
    ____,
    ____
])

Code bearbeiten und ausführen