1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wprowadzenie do Spark SQL w Pythonie

Connected

ćwiczenie

Zastosowanie UDF do danych wektorowych

Dostępna jest ramka danych df z kolumną output typu vector. Jej pierwsze pięć wierszy widocznych jest w konsoli.

Dostępny jest UDF get_first_udf, który wybiera pierwszy element kolumny wektorowej.

Instrukcje

100 XP
  • Utwórz nową ramkę danych o nazwie df_new, dodając nową kolumnę do df. Nazwij nową kolumnę label.
  • Wyświetl pierwsze pięć wierszy ramki df_new.