Importer un sous-ensemble de colonnes

Les données fiscales du Vermont contiennent 147 colonnes décrivant la composition des ménages, les sources de revenus et les impôts payés par code postal et par tranche de revenu. La plupart des analyses n’ont pas besoin de toutes ces colonnes. Dans cet exercice, vous allez créer un dataframe avec moins de variables en utilisant l’argument usecols de read_csv().

Concentrons-nous sur la composition des ménages pour voir s’il existe des différences selon la zone géographique et le niveau de revenu. Pour cela, nous aurons besoin des colonnes sur la tranche de revenu, le code postal, le statut de déclaration (par exemple, célibataire ou marié) et le nombre de personnes à charge. Les noms de variables sont codés dans les données ; les colonnes spécifiques à utiliser sont indiquées dans les instructions.

pandas a déjà été importé sous l’alias pd.

Cet exercice fait partie du cours

<cours>Ingestion de données simplifiée avec pandas</cours>

Voir le cours

Instructions de l’exercice

Créez une liste des colonnes à utiliser : zipcode, agi_stub (tranche de revenu), mars1 (nombre de ménages déclarant comme célibataires), MARS2 (nombre de ménages déclarant comme mariés) et NUMDEP (nombre de personnes à charge).
Créez un dataframe à partir de vt_tax_data_2016.csv qui n’utilise que les colonnes sélectionnées.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Create list of columns to use
cols = ____

# Create dataframe from csv using only selected columns
data = ____("vt_tax_data_2016.csv", ____)

# View counts of dependents and tax returns by income level
print(data.groupby("agi_stub").sum())

Modifier et exécuter le code