Cargando datos del censo
¡Vamos a crear tu primer DataFrame de PySpark! El archivo adult_reduced.csv contiene agrupaciones de adultos en función de varias categorías demográficas. Estos datos se han adaptado del censo de EE. UU. En total hay 32562 agrupaciones de adultos.
Debemos cargar el CSV y revisar el esquema resultante.
Diccionario de datos:
| Variable | Descripción |
|---|---|
| age | Edad de la persona |
| education_num | Nivel educativo (por título) |
| marital_status | Estado civil |
| occupation | Ocupación |
| income | Ingresos (categórico) |
Este ejercicio forma parte del curso
Introducción a PySpark
Instrucciones del ejercicio
- Crea un DataFrame de PySpark a partir del archivo
"adult_reduced.csv"usando el métodospark.read.csv(). - Muestra el DataFrame resultante.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Read in the CSV
census_adult = ____.____.____(____)
# Show the DataFrame
census_adult.____