Appliquer une UDF à des données vectorielles
Un dataframe nommé df est disponible, avec une colonne output de type vector. Ses cinq premières lignes sont affichées dans la console.
Une UDF get_first_udf est disponible et sélectionne le premier élément d’une colonne vectorielle.
Cet exercice fait partie du cours
<cours>Introduction à Spark SQL en Python</cours>Instructions de l’exercice
- Créez un nouveau dataframe nommé
df_newen ajoutant une nouvelle colonne àdf. Nommez cette nouvelle colonnelabel. - Affichez les cinq premières lignes de
df_new.
Exercice interactif pratique
Essayez cet exercice en complétant ce code d’exemple.
# Add label by applying the get_first_udf to output column
df_new = df.____('____', ____('____'))
# Show the first five rows
df_new.____