Aan de slagGa gratis aan de slag

Een UDF toepassen op vectorgegevens

Er is een dataframe beschikbaar, df, met een kolom output van het type vector. De eerste vijf rijen zie je in de console.

Er is een UDF get_first_udf beschikbaar die het eerste element uit een vectorkolom selecteert.

Deze oefening maakt deel uit van de cursus

Introductie tot Spark SQL in Python

Cursus bekijken

Oefeninstructies

  • Maak een nieuw dataframe df_new door een nieuwe kolom toe te voegen aan df. Noem de nieuwe kolom label.
  • Toon de eerste vijf rijen van df_new.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Add label by applying the get_first_udf to output column
df_new = df.____('____', ____('____'))

# Show the first five rows 
df_new.____
Code bewerken en uitvoeren