Integers in PySpark-UDF's
In deze oefening ga je aan de slag met UDF's, zodat je begrijpt hoe je functies maakt in PySpark! Denk tijdens het werken na over wat dit zou vervangen in een data cleaning-workflow.
Onthoud: er staat al een SparkSession met de naam spark voor je klaar in je werkruimte!
Deze oefening maakt deel uit van de cursus
Introductie tot PySpark
Oefeninstructies
- Registreer de functie
age_categoryals een UDF met de naamage_category_udf. - Voeg een nieuwe kolom toe aan de DataFrame
dfmet de naam"category"die de UDF toepast om mensen in te delen op basis van hun leeftijd. Het argument voorage_category_udf()is al voor je ingevuld. - Laat de resulterende DataFrame zien.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Register the function age_category as a UDF
age_category_udf = ____(age_category, StringType())
# Apply your udf to the DataFrame
age_category_df_2 = age_category_df.withColumn("category", ____(age_category_df["age"]))
# Show df
age_category_df_2.____