Importa un file a blocchi
Quando lavori con file di grandi dimensioni, può essere più semplice caricare ed elaborare i dati a pezzi. Mettiamo in pratica questo flusso di lavoro sui dati fiscali del Vermont.
Le prime 500 righe sono state caricate come vt_data_first500. Ora otterrai le 500 righe successive. Per farlo, userai diversi argomenti keyword: nrows e skiprows per recuperare i record corretti, header per indicare a pandas che i dati non hanno nomi di colonna, e names per fornire i nomi di colonna mancanti. Ti servirà anche la funzione list() per ricavare i nomi delle colonne da vt_data_first500 da riutilizzare.
pandas è stato importato come pd.
Questo esercizio fa parte del corso
Acquisizione dati semplificata con pandas
Istruzioni dell'esercizio
- Usa
nrowseskiprowsper creare un dataframe,vt_data_next500, con le successive 500 righe. - Imposta l’argomento
headerin modo chepandassappia che non c’è una riga di intestazione. - Assegna i nomi delle colonne in
vt_data_next500fornendo anamesl’elenco delle colonne divt_data_first500.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create dataframe of next 500 rows with labeled columns
vt_data_next500 = pd.read_csv("vt_tax_data_2016.csv",
____,
____,
____,
____)
# View the Vermont dataframes to confirm they're different
print(vt_data_first500.head())
print(vt_data_next500.head())