CommencerCommencer gratuitement

Appliquer une UDF à des données vectorielles

Un dataframe nommé df est disponible, avec une colonne output de type vector. Ses cinq premières lignes sont affichées dans la console.

Une UDF get_first_udf est disponible et sélectionne le premier élément d’une colonne vectorielle.

Cet exercice fait partie du cours

Introduction à Spark SQL en Python

Afficher le cours

Instructions

  • Créez un nouveau dataframe nommé df_new en ajoutant une nouvelle colonne à df. Nommez cette nouvelle colonne label.
  • Affichez les cinq premières lignes de df_new.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Add label by applying the get_first_udf to output column
df_new = df.____('____', ____('____'))

# Show the first five rows 
df_new.____
Modifier et exécuter le code