Importa un sottoinsieme di colonne
I dati fiscali del Vermont contengono 147 colonne che descrivono la composizione dei nuclei familiari, le fonti di reddito e le imposte pagate per CAP e fascia di reddito. La maggior parte delle analisi non richiede tutte queste colonne. In questo esercizio creerai un dataframe con meno variabili usando l’argomento usecols di read_csv().
Concentriamoci sulla composizione familiare per verificare se ci sono differenze per area geografica e livello di reddito. Per farlo, ci serviranno le colonne su fascia di reddito, CAP, stato della dichiarazione dei redditi (ad esempio, single o coniugato) e persone a carico. I dati usano codici come nomi di variabile, quindi le colonne specifiche necessarie sono indicate nelle istruzioni.
pandas è già stato importato come pd.
Questo esercizio fa parte del corso
Acquisizione dati semplificata con pandas
Istruzioni dell'esercizio
- Crea un elenco di colonne da usare:
zipcode,agi_stub(fascia di reddito),mars1(numero di nuclei single),MARS2(numero di nuclei che dichiarano come coniugati) eNUMDEP(numero di persone a carico). - Crea un dataframe da
vt_tax_data_2016.csvche utilizzi solo le colonne selezionate.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create list of columns to use
cols = ____
# Create dataframe from csv using only selected columns
data = ____("vt_tax_data_2016.csv", ____)
# View counts of dependents and tax returns by income level
print(data.groupby("agi_stub").sum())