Inferir y filtrar
Imagina que tienes un conjunto de datos del censo que sabes que tiene cabecera y un esquema. Vamos a cargar ese conjunto de datos y dejar que PySpark infiera el esquema. ¿Qué ves si filtras a las personas adultas mayores de 40?
Recuerda: ¡ya tienes una SparkSession llamada spark en tu espacio de trabajo!
Este ejercicio forma parte del curso
Introducción a PySpark
Instrucciones del ejercicio
- Carga un archivo JSON
adults.json. - Filtra los datos para incluir a las personas adultas con
agemayor que40. - Muestra los resultados.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Load the dataframe
census_df = spark.read.json("adults.json")
# Filter rows based on age condition
salary_filtered_census = census_df.____(census_df[____]____)
# Show the result
____