Appliquer une UDF à des données vectorielles
Un dataframe nommé df est disponible, avec une colonne output de type vector. Ses cinq premières lignes sont affichées dans la console.
Une UDF get_first_udf est disponible et sélectionne le premier élément d’une colonne vectorielle.
Cet exercice fait partie du cours
Introduction à Spark SQL en Python
Instructions
- Créez un nouveau dataframe nommé
df_newen ajoutant une nouvelle colonne àdf. Nommez cette nouvelle colonnelabel. - Affichez les cinq premières lignes de
df_new.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Add label by applying the get_first_udf to output column
df_new = df.____('____', ____('____'))
# Show the first five rows
df_new.____