Entiers dans les UDF PySpark
Cet exercice porte sur les UDF, pour vous aider à comprendre la création de fonctions dans PySpark. Au fil des étapes, réfléchissez à ce que cela remplace dans un flux de nettoyage des données.
Rappelez-vous qu’une SparkSession appelée spark est déjà disponible dans votre environnement de travail !
Cet exercice fait partie du cours
Introduction à PySpark
Instructions
- Enregistrez la fonction
age_categorycomme UDF sous le nomage_category_udf. - Ajoutez une nouvelle colonne au DataFrame
dfappelée"category"qui applique l’UDF pour catégoriser les personnes selon leur âge. L’argument pourage_category_udf()vous est fourni. - Affichez le DataFrame résultant.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Register the function age_category as a UDF
age_category_udf = ____(age_category, StringType())
# Apply your udf to the DataFrame
age_category_df_2 = age_category_df.withColumn("category", ____(age_category_df["age"]))
# Show df
age_category_df_2.____