Eine UDF auf Vektordaten anwenden
Es steht ein DataFrame df zur Verfügung, das eine Spalte output vom Typ vector enthält. Die ersten fünf Zeilen sind in der Konsole zu sehen.
Eine UDF get_first_udf ist verfügbar, die das erste Element einer Vektorspalte auswählt.
Diese Übung ist Teil des Kurses
Einführung in Spark SQL mit Python
Anleitung zur Übung
- Erstelle ein neues DataFrame namens
df_new, indem dudfeine neue Spalte hinzufügst. Nenne die neue Spaltelabel. - Zeige die ersten fünf Zeilen von
df_newan.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Add label by applying the get_first_udf to output column
df_new = df.____('____', ____('____'))
# Show the first five rows
df_new.____