Enteros en UDFs de PySpark
Este ejercicio trata sobre UDFs y te ayudará a comprender cómo crear funciones en PySpark. Mientras avanzas, piensa qué parte de un flujo de limpieza de datos podría sustituir esto.
Recuerda que ya tienes una SparkSession llamada spark en tu espacio de trabajo.
Este ejercicio forma parte del curso
Introducción a PySpark
Instrucciones del ejercicio
- Registra la función
age_categorycomo una UDF llamadaage_category_udf. - Añade una columna nueva al DataFrame
dfllamada"category"que aplique la UDF para clasificar a las personas según su edad. El argumento paraage_category_udf()ya está proporcionado. - Muestra el DataFrame resultante.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Register the function age_category as a UDF
age_category_udf = ____(age_category, StringType())
# Apply your udf to the DataFrame
age_category_df_2 = age_category_df.withColumn("category", ____(age_category_df["age"]))
# Show df
age_category_df_2.____