Een UDF toepassen op vectorgegevens
Er is een dataframe beschikbaar, df, met een kolom output van het type vector. De eerste vijf rijen zie je in de console.
Er is een UDF get_first_udf beschikbaar die het eerste element uit een vectorkolom selecteert.
Deze oefening maakt deel uit van de cursus
Introductie tot Spark SQL in Python
Oefeninstructies
- Maak een nieuw dataframe
df_newdoor een nieuwe kolom toe te voegen aandf. Noem de nieuwe kolomlabel. - Toon de eerste vijf rijen van
df_new.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Add label by applying the get_first_udf to output column
df_new = df.____('____', ____('____'))
# Show the first five rows
df_new.____