ComenzarEmpieza gratis

Inferir y filtrar

Imagina que tienes un conjunto de datos del censo que sabes que tiene cabecera y un esquema. Vamos a cargar ese conjunto de datos y dejar que PySpark infiera el esquema. ¿Qué ves si filtras a las personas adultas mayores de 40?

Recuerda: ¡ya tienes una SparkSession llamada spark en tu espacio de trabajo!

Este ejercicio forma parte del curso

Introducción a PySpark

Ver curso

Instrucciones del ejercicio

  • Carga un archivo JSON adults.json.
  • Filtra los datos para incluir a las personas adultas con age mayor que 40.
  • Muestra los resultados.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Load the dataframe
census_df = spark.read.json("adults.json")

# Filter rows based on age condition
salary_filtered_census = census_df.____(census_df[____]____)

# Show the result
____
Editar y ejecutar código