ComenzarEmpieza gratis

Cargando datos del censo

¡Vamos a crear tu primer DataFrame de PySpark! El archivo adult_reduced.csv contiene agrupaciones de adultos en función de varias categorías demográficas. Estos datos se han adaptado del censo de EE. UU. En total hay 32562 agrupaciones de adultos.

Debemos cargar el CSV y revisar el esquema resultante.

Diccionario de datos:

Variable Descripción
age Edad de la persona
education_num Nivel educativo (por título)
marital_status Estado civil
occupation Ocupación
income Ingresos (categórico)

Este ejercicio forma parte del curso

Introducción a PySpark

Ver curso

Instrucciones del ejercicio

  • Crea un DataFrame de PySpark a partir del archivo "adult_reduced.csv" usando el método spark.read.csv().
  • Muestra el DataFrame resultante.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Read in the CSV
census_adult = ____.____.____(____)

# Show the DataFrame
census_adult.____
Editar y ejecutar código