Erste SchritteKostenlos loslegen

Pro Bildanzahl

Deine nächste Aufgabe bei der Erstellung einer Datenpipeline für diesen Datensatz besteht darin, ein paar analyseorientierte Spalten zu erstellen. Du wurdest gebeten, die Anzahl der Hunde auf jedem Bild zu berechnen, basierend auf deiner zuvor erstellten Spalte dog_list. Du hast auch die DogType erstellt, die ein besseres Parsing der Daten in einigen Datenspalten ermöglicht.

Die joined_df ist so verfügbar, wie du sie zuletzt definiert hast, und der DogType StructType ist definiert. pyspark.sql.functions ist unter dem Alias F verfügbar.

Diese Übung ist Teil des Kurses

Daten bereinigen mit PySpark

Kurs anzeigen

Anleitung zur Übung

  • Erstelle eine Python-Funktion, die jeden Eintrag in dog_list in die entsprechenden Teile zerlegt. Achte darauf, dass du alle Strings in die entsprechenden Typen konvertierst, sonst wird der DogType nicht korrekt analysiert.
  • Erstelle eine UDF mit der oben genannten Funktion.
  • Verwende die UDF, um eine neue Spalte namens dogs zu erstellen.
  • Zeige die Anzahl der Hunde in der neuen Spalte für die ersten 10 Zeilen.

Interaktive Übung zum Anfassen

Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.

# Create a function to return the number and type of dogs as a tuple
def dogParse(doglist):
  dogs = []
  for dog in doglist:
    (breed, start_x, start_y, end_x, end_y) = dog.____('____')
    dogs.append((____, int(____), ____, ____, ____))
  return dogs

# Create a UDF
udfDogParse = ____(____, ArrayType(____))

# Use the UDF to list of dogs
joined_df = joined_df.____('____', ____('____'))

# Show the number of dogs in the first 10 rows
joined_df.____(____('____')).____(____)
Bearbeiten und Ausführen von Code