Een bestand in stukken importeren
Als je met grote bestanden werkt, is het vaak handiger om de data in stukken te laden en te verwerken. Oefen deze werkwijze met de belastingdata van Vermont.
De eerste 500 rijen zijn geladen als vt_data_first500. Jij haalt de volgende 500 rijen op. Hiervoor gebruik je een aantal keyword-argumenten: nrows en skiprows om de juiste records te pakken, header om pandas te laten weten dat de data geen kolomnamen heeft, en names om de ontbrekende kolomnamen aan te leveren. Gebruik ook de functie list() om de kolomnamen uit vt_data_first500 te halen en te hergebruiken.
pandas is geïmporteerd als pd.
Deze oefening maakt deel uit van de cursus
Gestroomlijnde data-inname met pandas
Oefeninstructies
- Gebruik
nrowsenskiprowsom een dataframe,vt_data_next500, te maken met de volgende 500 rijen. - Stel het
header-argument zo in datpandasweet dat er geen header-rij is. - Geef de kolommen in
vt_data_next500een naam door een lijst met kolommen vanvt_data_first500aan hetnames-argument te leveren.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create dataframe of next 500 rows with labeled columns
vt_data_next500 = pd.read_csv("vt_tax_data_2016.csv",
____,
____,
____,
____)
# View the Vermont dataframes to confirm they're different
print(vt_data_first500.head())
print(vt_data_next500.head())