Aan de slagGa gratis aan de slag

Integers in PySpark-UDF's

In deze oefening ga je aan de slag met UDF's, zodat je begrijpt hoe je functies maakt in PySpark! Denk tijdens het werken na over wat dit zou vervangen in een data cleaning-workflow.

Onthoud: er staat al een SparkSession met de naam spark voor je klaar in je werkruimte!

Deze oefening maakt deel uit van de cursus

Introductie tot PySpark

Cursus bekijken

Oefeninstructies

  • Registreer de functie age_category als een UDF met de naam age_category_udf.
  • Voeg een nieuwe kolom toe aan de DataFrame df met de naam "category" die de UDF toepast om mensen in te delen op basis van hun leeftijd. Het argument voor age_category_udf() is al voor je ingevuld.
  • Laat de resulterende DataFrame zien.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Register the function age_category as a UDF
age_category_udf = ____(age_category, StringType())

# Apply your udf to the DataFrame
age_category_df_2 = age_category_df.withColumn("category", ____(age_category_df["age"]))

# Show df
age_category_df_2.____
Code bewerken en uitvoeren