Importa un subconjunto de columnas

Los datos de impuestos de Vermont contienen 147 columnas que describen la composición del hogar, las fuentes de ingresos y los impuestos pagados por código postal (ZIP) y grupo de ingresos. La mayoría de los análisis no necesitan todas estas columnas. En este ejercicio, crearás un dataframe con menos variables usando el argumento usecols de read_csv().

Vamos a centrarnos en la composición del hogar para ver si hay diferencias por zona geográfica y nivel de ingresos. Para ello, necesitaremos las columnas de grupo de ingresos, código ZIP, estado civil de la declaración de impuestos (p. ej., soltero o casado) y personas a cargo. Los nombres de las variables en los datos son códigos, así que las columnas concretas que necesitas están en las instrucciones.

pandas ya se ha importado como pd.

Este ejercicio forma parte del curso

Ingesta de datos eficiente con pandas

Ver curso

Instrucciones del ejercicio

Crea una lista con las columnas a usar: zipcode, agi_stub (grupo de ingresos), mars1 (número de hogares de personas solteras), MARS2 (número de hogares que declaran como casados) y NUMDEP (número de personas a cargo).
Crea un dataframe a partir de vt_tax_data_2016.csv que utilice solo las columnas seleccionadas.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Create list of columns to use
cols = ____

# Create dataframe from csv using only selected columns
data = ____("vt_tax_data_2016.csv", ____)

# View counts of dependents and tax returns by income level
print(data.groupby("agi_stub").sum())

Editar y ejecutar código