CommencerCommencer gratuitement

Entiers dans les UDF PySpark

Cet exercice porte sur les UDF, pour vous aider à comprendre la création de fonctions dans PySpark. Au fil des étapes, réfléchissez à ce que cela remplace dans un flux de nettoyage des données.

Rappelez-vous qu’une SparkSession appelée spark est déjà disponible dans votre environnement de travail !

Cet exercice fait partie du cours

Introduction à PySpark

Afficher le cours

Instructions

  • Enregistrez la fonction age_category comme UDF sous le nom age_category_udf.
  • Ajoutez une nouvelle colonne au DataFrame df appelée "category" qui applique l’UDF pour catégoriser les personnes selon leur âge. L’argument pour age_category_udf() vous est fourni.
  • Affichez le DataFrame résultant.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Register the function age_category as a UDF
age_category_udf = ____(age_category, StringType())

# Apply your udf to the DataFrame
age_category_df_2 = age_category_df.withColumn("category", ____(age_category_df["age"]))

# Show df
age_category_df_2.____
Modifier et exécuter le code