Impor sebagian kolom
Data pajak Vermont berisi 147 kolom yang menggambarkan komposisi rumah tangga, sumber pendapatan, dan pajak yang dibayar menurut kode ZIP dan kelompok pendapatan. Sebagian besar analisis tidak memerlukan semua kolom ini. Pada latihan ini, Anda akan membuat dataframe dengan variabel yang lebih sedikit menggunakan argumen usecols pada read_csv().
Mari berfokus pada komposisi rumah tangga untuk melihat apakah ada perbedaan berdasarkan geografi dan tingkat pendapatan. Untuk itu, kita memerlukan kolom tentang kelompok pendapatan, kode ZIP, status pelaporan SPT (misalnya lajang atau menikah), dan tanggungan. Data menggunakan kode sebagai nama variabel, sehingga kolom spesifik yang dibutuhkan ada pada instruksi.
pandas sudah diimpor sebagai pd.
Latihan ini adalah bagian dari kursus
Pemasukan Data yang Efisien dengan pandas
Petunjuk latihan
- Buat daftar kolom yang akan digunakan:
zipcode,agi_stub(kelompok pendapatan),mars1(jumlah rumah tangga lajang),MARS2(jumlah rumah tangga yang melapor sebagai menikah), danNUMDEP(jumlah tanggungan). - Buat dataframe dari
vt_tax_data_2016.csvyang hanya menggunakan kolom-kolom terpilih tersebut.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create list of columns to use
cols = ____
# Create dataframe from csv using only selected columns
data = ____("vt_tax_data_2016.csv", ____)
# View counts of dependents and tax returns by income level
print(data.groupby("agi_stub").sum())