Imposta valori NA personalizzati
Parte dell’esplorazione e pulizia dei dati consiste nel verificare la presenza di valori mancanti o NA e decidere come gestirli. Questo è più semplice quando i valori mancanti sono trattati come un tipo di dato a sé, e ci sono funzioni di pandas che mirano specificamente a tali valori NA. pandas considera automaticamente alcuni valori come mancanti, ma possiamo passare ulteriori indicatori di NA con l’argomento na_values. Qui lo farai per assicurarti che gli ZIP code non validi nei dati fiscali del Vermont siano codificati come NA.
pandas è già stato importato come pd.
Questo esercizio fa parte del corso
Acquisizione dati semplificata con pandas
Istruzioni dell'esercizio
- Crea un dizionario,
null_values, specificando che gli0nella colonnazipcodedevono essere considerati valori NA. - Carica
vt_tax_data_2016.csv, usando l’argomentona_valuese il dizionario per assicurarti che gli ZIP code non validi siano trattati come mancanti.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create dict specifying that 0s in zipcode are NA values
null_values = {____}
# Load csv using na_values keyword argument
data = pd.read_csv("vt_tax_data_2016.csv",
____)
# View rows with NA ZIP codes
print(data[data.zipcode.isna()])