Eine UDF für Vektordaten erstellen
Ein DataFrame df ist verfügbar und enthält eine Spalte output vom Typ vector. Die ersten fünf Zeilen werden in der Konsole angezeigt.
Diese Übung ist Teil des Kurses
<Kurs>Einführung in Spark SQL mit Python</Kurs>Übungsanweisungen
- Erstelle eine UDF namens
first_udf. Sie wählt das erste Element einer Vektor-Spalte. Setze das Ergebnis auf den Standardwert 0,0 für jeden Eintrag, der kein Vektor mit mindestens einem Element ist, und gib die Ausgabe als Float aus. - Verwende die Operation
selectaufdf, umfirst_udfauf die Spalteoutputanzuwenden.
Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Selects the first element of a vector column
first_udf = ____(lambda x:
____(x.indices[0])
if (x and hasattr(x, "toArray") and x.____())
else 0.0,
FloatType())
# Apply first_udf to the output column
df.select(____("output").alias("result")).show(5)