1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wprowadzenie do Spark SQL w Pythonie

Connected

ćwiczenie

Tworzenie UDF dla danych wektorowych

Dostępna jest ramka danych df z kolumną output typu vector. Jej pierwszych pięć wierszy widać w konsoli.

Instrukcje

100 XP
  • Utwórz UDF o nazwie first_udf, który wybiera pierwszy element kolumny wektorowej. Ustaw wartość domyślną na 0.0 dla elementów, które nie są wektorami zawierającymi co najmniej jeden element, i rzutuj wynik na typ float.
  • Użyj operacji select na df, aby zastosować first_udf do kolumny output.