LoslegenKostenlos loslegen

Hundeparsing

Du hast den ursprünglichen Datensatz gründlich bereinigt, aber jetzt musst du die Daten etwas genauer analysieren. Es gibt jetzt einige Fragen zu den Hunden, die auf einem Bild zu sehen sind, und einige Details zu den Bildern. Um diese Fragen zu beantworten, musst du die Daten zu einem bestimmten Typ verarbeiten. Bevor du es verwenden kannst, musst du ein Schema / einen Typ erstellen, um die Hundedetails zu repräsentieren.

Der DataFrame joined_df ist so, wie du ihn zuletzt definiert hast, und die pyspark.sql.types wurden alle importiert.

Diese Übung ist Teil des Kurses

Daten bereinigen mit PySpark

Kurs anzeigen

Anleitung zur Übung

  • Wähle die Spalte mit den Hundedetails aus dem DataFrame aus und zeige die ersten 10 ungekürzten Zeilen an.
  • Erstelle ein neues Schema, wie du es zuvor getan hast, und verwende als Namen breed, startx, starty, endx und endy. Achte darauf, dass du die richtigen Datentypen für jedes Feld im Schema angibst (jeder Zahlenwert ist eine ganze Zahl).

Interaktive Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Select the dog details and show 10 untruncated rows
print(joined_df.____.show(____, truncate=____))

# Define a schema type for the details in the dog list
DogType = ____([
	StructField("breed", ____, False),
    StructField("start_x", ____, False),
    ____,
    ____,
    ____
])
Code bearbeiten und ausführen