Aan de slagGa gratis aan de slag

Pandas UDF's

Deze oefening gaat over Pandas UDF's, zodat je hun syntax kunt oefenen! Terwijl je hiermee bezig bent, let op de verschillen tussen de Pyspark UDF uit de vorige oefening en dit type UDF.

Onthoud: er staat al een SparkSession met de naam spark klaar in je werkruimte!

Deze oefening maakt deel uit van de cursus

Introductie tot PySpark

Cursus bekijken

Oefeninstructies

  • Definieer de functie add_ten_pandas() als een pandas UDF.
  • Voeg een nieuwe kolom toe aan de DataFrame met de naam "10_plus" die de pandas UDF toepast op de kolom "value" van df.
  • Toon de resulterende DataFrame.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Define a Pandas UDF that adds 10 to each element in a vectorized way
@____(DoubleType())
def add_ten_pandas(column):
    return column + 10

# Apply the UDF and show the result
df.withColumn("10_plus", ____)
df.____
Code bewerken en uitvoeren