Integers em UDFs do PySpark
Este exercício aborda UDFs, para você entender a criação de funções no PySpark! Enquanto avança, pense no que isso substituiria em um fluxo de limpeza de dados.
Lembre-se: já existe uma SparkSession chamada spark no seu ambiente de trabalho!
Este exercício faz parte do curso
Introdução ao PySpark
Instruções do exercício
- Registre a função
age_categorycomo uma UDF chamadaage_category_udf. - Adicione uma nova coluna ao DataFrame
dfchamada"category"que aplique a UDF para categorizar as pessoas com base na idade. O argumento paraage_category_udf()já foi fornecido. - Mostre o DataFrame resultante.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Register the function age_category as a UDF
age_category_udf = ____(age_category, StringType())
# Apply your udf to the DataFrame
age_category_df_2 = age_category_df.withColumn("category", ____(age_category_df["age"]))
# Show df
age_category_df_2.____