LoslegenKostenlos starten

Eine UDF auf Vektordaten anwenden

Es steht ein DataFrame df zur Verfügung, das eine Spalte output vom Typ vector enthält. Die ersten fünf Zeilen sind in der Konsole zu sehen.

Eine UDF get_first_udf ist verfügbar, die das erste Element einer Vektorspalte auswählt.

Diese Übung ist Teil des Kurses

<Kurs>Einführung in Spark SQL mit Python</Kurs>
Kurs ansehen

Übungsanweisungen

  • Erstelle ein neues DataFrame namens df_new, indem du df eine neue Spalte hinzufügst. Nenne die neue Spalte label.
  • Zeige die ersten fünf Zeilen von df_new an.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Add label by applying the get_first_udf to output column
df_new = df.____('____', ____('____'))

# Show the first five rows 
df_new.____
Code bearbeiten und ausführen