Definir valores NA personalizados
Parte da exploração e limpeza de dados é verificar valores ausentes (NA) e decidir como tratá-los. Isso fica mais fácil quando valores ausentes são tratados como um tipo de dado próprio, e há funções do pandas que lidam especificamente com esses NAs. O pandas já considera alguns valores como ausentes automaticamente, mas podemos passar indicadores adicionais com o argumento na_values. Aqui, você vai fazer isso para garantir que CEPs inválidos no conjunto de dados de impostos de Vermont sejam codificados como NA.
pandas já foi importado como pd.
Este exercício faz parte do curso
Ingestão de dados simplificada com pandas
Instruções do exercício
- Crie um dicionário,
null_values, especificando que0s na colunazipcodedevem ser considerados valores NA. - Carregue
vt_tax_data_2016.csv, usando o argumentona_valuese o dicionário para garantir que CEPs inválidos sejam tratados como ausentes.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create dict specifying that 0s in zipcode are NA values
null_values = {____}
# Load csv using na_values keyword argument
data = pd.read_csv("vt_tax_data_2016.csv",
____)
# View rows with NA ZIP codes
print(data[data.zipcode.isna()])