LoslegenKostenlos starten

Eine UDF für Vektordaten erstellen

Ein DataFrame df ist verfügbar und enthält eine Spalte output vom Typ vector. Die ersten fünf Zeilen werden in der Konsole angezeigt.

Diese Übung ist Teil des Kurses

<Kurs>Einführung in Spark SQL mit Python</Kurs>
Kurs ansehen

Übungsanweisungen

  • Erstelle eine UDF namens first_udf. Sie wählt das erste Element einer Vektor-Spalte. Setze das Ergebnis auf den Standardwert 0,0 für jeden Eintrag, der kein Vektor mit mindestens einem Element ist, und gib die Ausgabe als Float aus.
  • Verwende die Operation select auf df, um first_udf auf die Spalte output anzuwenden.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Selects the first element of a vector column
first_udf = ____(lambda x:
            ____(x.indices[0]) 
            if (x and hasattr(x, "toArray") and x.____())
            else 0.0,
            FloatType())

# Apply first_udf to the output column
df.select(____("output").alias("result")).show(5)
Code bearbeiten und ausführen