LoslegenKostenlos loslegen

Eine UDF für Vektordaten erstellen

Ein DataFrame df ist verfügbar und enthält eine Spalte output vom Typ vector. Die ersten fünf Zeilen werden in der Konsole angezeigt.

Diese Übung ist Teil des Kurses

Einführung in Spark SQL mit Python

Kurs anzeigen

Anleitung zur Übung

  • Erstelle eine UDF namens first_udf. Sie wählt das erste Element einer Vektor-Spalte. Setze das Ergebnis auf den Standardwert 0,0 für jeden Eintrag, der kein Vektor mit mindestens einem Element ist, und gib die Ausgabe als Float aus.
  • Verwende die Operation select auf df, um first_udf auf die Spalte output anzuwenden.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Selects the first element of a vector column
first_udf = ____(lambda x:
            ____(x.indices[0]) 
            if (x and hasattr(x, "toArray") and x.____())
            else 0.0,
            FloatType())

# Apply first_udf to the output column
df.select(____("output").alias("result")).show(5)
Code bearbeiten und ausführen