Een UDF toepassen op vectorgegevens
Er is een dataframe beschikbaar, df, met een kolom output van het type vector. De eerste vijf rijen zie je in de console.
Er is een UDF get_first_udf beschikbaar die het eerste element uit een vectorkolom selecteert.
Deze oefening maakt deel uit van de cursus
Introductie tot Spark SQL in Python
Oefeninstructies
- Maak een nieuw dataframe
df_newdoor een nieuwe kolom toe te voegen aandf. Noem de nieuwe kolomlabel. - Toon de eerste vijf rijen van
df_new.
Interactieve oefening met praktijkervaring
Probeer deze oefening door deze voorbeeldcode aan te vullen.
# Add label by applying the get_first_udf to output column
df_new = df.____('____', ____('____'))
# Show the first five rows
df_new.____