Sütunların bir alt kümesini içe aktar
Vermont vergi verileri, hanehalkı bileşimi, gelir kaynakları ve ödenen vergileri ZIP kodu ve gelir grubuna göre tanımlayan 147 sütun içerir. Çoğu analiz bu sütunların hepsine ihtiyaç duymaz. Bu egzersizde, read_csv() fonksiyonunun usecols argümanını kullanarak daha az değişken içeren bir veri çerçevesi oluşturacaksın.
Coğrafya ve gelir düzeyine göre farklılıklar olup olmadığını görmek için hanehalkı bileşimine odaklanalım. Bunu yapmak için gelir grubu, ZIP kodu, vergi beyannamesi doldurma statüsü (ör. bekar veya evli) ve bağımlı sayısı ile ilgili sütunlara ihtiyacımız olacak. Veride değişken adları için kodlar kullanılıyor, bu yüzden gereken belirli sütunlar talimatlarda verilmiştir.
pandas zaten pd olarak içe aktarıldı.
Bu egzersiz
pandas ile Kolaylaştırılmış Veri Alımı
kursunun bir parçasıdırEgzersiz talimatları
- Kullanılacak sütunların bir listesini oluştur:
zipcode,agi_stub(gelir grubu),mars1(bekar hane sayısı),MARS2(evli olarak beyan veren hane sayısı) veNUMDEP(bağımlı sayısı). - Sadece seçili sütunları kullanarak
vt_tax_data_2016.csvdosyasından bir veri çerçevesi oluştur.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Create list of columns to use
cols = ____
# Create dataframe from csv using only selected columns
data = ____("vt_tax_data_2016.csv", ____)
# View counts of dependents and tax returns by income level
print(data.groupby("agi_stub").sum())