Eine UDF für Vektordaten erstellen
Ein DataFrame df ist verfügbar und enthält eine Spalte output vom Typ vector. Die ersten fünf Zeilen werden in der Konsole angezeigt.
Diese Übung ist Teil des Kurses
Einführung in Spark SQL mit Python
Anleitung zur Übung
- Erstelle eine UDF namens
first_udf. Sie wählt das erste Element einer Vektor-Spalte. Setze das Ergebnis auf den Standardwert 0,0 für jeden Eintrag, der kein Vektor mit mindestens einem Element ist, und gib die Ausgabe als Float aus. - Verwende die Operation
selectaufdf, umfirst_udfauf die Spalteoutputanzuwenden.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Selects the first element of a vector column
first_udf = ____(lambda x:
____(x.indices[0])
if (x and hasattr(x, "toArray") and x.____())
else 0.0,
FloatType())
# Apply first_udf to the output column
df.select(____("output").alias("result")).show(5)