1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Streamlined Data Ingestion with pandas

Connected

cvičení

Načítání souboru po částech

Při práci s velkými soubory je často jednodušší načítat a zpracovávat data postupně po částech. Procvičíme si tento přístup na datech z daňových přiznání státu Vermont.

Prvních 500 řádků už je načtených jako vt_data_first500. Teď načteš dalších 500 řádků. K tomu využiješ několik pojmenovaných argumentů: nrows a skiprows pro výběr správných záznamů, header, kterým pandas sdělíš, že data nemají názvy sloupců, a names pro jejich doplnění. Názvy sloupců získáš z vt_data_first500 pomocí funkce list().

pandas je naimportován jako pd.

Pokyny

100 XP
  • Pomocí nrows a skiprows vytvoř dataframe vt_data_next500 obsahující dalších 500 řádků.
  • Nastav argument header tak, aby pandas věděl, že data neobsahují řádek se záhlavím.
  • Pojmenuj sloupce v vt_data_next500 tak, že argumentu names předáš seznam sloupců z vt_data_first500.