LoslegenKostenlos loslegen

Eine UDF auf Vektordaten anwenden

Es steht ein DataFrame df zur Verfügung, das eine Spalte output vom Typ vector enthält. Die ersten fünf Zeilen sind in der Konsole zu sehen.

Eine UDF get_first_udf ist verfügbar, die das erste Element einer Vektorspalte auswählt.

Diese Übung ist Teil des Kurses

Einführung in Spark SQL mit Python

Kurs anzeigen

Anleitung zur Übung

  • Erstelle ein neues DataFrame namens df_new, indem du df eine neue Spalte hinzufügst. Nenne die neue Spalte label.
  • Zeige die ersten fünf Zeilen von df_new an.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Add label by applying the get_first_udf to output column
df_new = df.____('____', ____('____'))

# Show the first five rows 
df_new.____
Code bearbeiten und ausführen