1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Streamlined Data Ingestion with pandas

Connected

cvičení

Import vybrané podmnožiny sloupců

Daňová data z Vermontu obsahují 147 sloupců popisujících složení domácností, zdroje příjmů a zaplacené daně podle PSČ a příjmové skupiny. Většina analýz ale všechny tyto sloupce nepotřebuje. V tomto cvičení vytvoříš dataframe s menším počtem proměnných pomocí argumentu usecols funkce read_csv().

Zaměříme se na složení domácností, abychom zjistili, zda existují rozdíly podle geografie a výše příjmů. K tomu potřebujeme sloupce s informacemi o příjmové skupině, PSČ, způsobu podání daňového přiznání (např. svobodný/á nebo ženatý/vdaná) a počtu závislých osob. Data používají kódová označení proměnných – konkrétní potřebné sloupce jsou uvedené v pokynech.

pandas je již naimportován jako pd.

Pokyny

100 XP
  • Vytvoř seznam sloupců, které chceš použít: zipcode, agi_stub (příjmová skupina), mars1 (počet jednočlenných domácností), MARS2 (počet domácností podávajících přiznání jako manželský pár) a NUMDEP (počet závislých osob).
  • Vytvoř dataframe ze souboru vt_tax_data_2016.csv, který bude obsahovat pouze vybrané sloupce.