Importa un subconjunto de columnas
Los datos de impuestos de Vermont contienen 147 columnas que describen la composición del hogar, las fuentes de ingresos y los impuestos pagados por código postal (ZIP) y grupo de ingresos. La mayoría de los análisis no necesitan todas estas columnas. En este ejercicio, crearás un dataframe con menos variables usando el argumento usecols de read_csv().
Vamos a centrarnos en la composición del hogar para ver si hay diferencias por zona geográfica y nivel de ingresos. Para ello, necesitaremos las columnas de grupo de ingresos, código ZIP, estado civil de la declaración de impuestos (p. ej., soltero o casado) y personas a cargo. Los nombres de las variables en los datos son códigos, así que las columnas concretas que necesitas están en las instrucciones.
pandas ya se ha importado como pd.
Este ejercicio forma parte del curso
Ingesta de datos eficiente con pandas
Instrucciones del ejercicio
- Crea una lista con las columnas a usar:
zipcode,agi_stub(grupo de ingresos),mars1(número de hogares de personas solteras),MARS2(número de hogares que declaran como casados) yNUMDEP(número de personas a cargo). - Crea un dataframe a partir de
vt_tax_data_2016.csvque utilice solo las columnas seleccionadas.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Create list of columns to use
cols = ____
# Create dataframe from csv using only selected columns
data = ____("vt_tax_data_2016.csv", ____)
# View counts of dependents and tax returns by income level
print(data.groupby("agi_stub").sum())