ComeçarComece de graça

Definir valores NA personalizados

Parte da exploração e limpeza de dados é verificar valores ausentes (NA) e decidir como tratá-los. Isso fica mais fácil quando valores ausentes são tratados como um tipo de dado próprio, e há funções do pandas que lidam especificamente com esses NAs. O pandas já considera alguns valores como ausentes automaticamente, mas podemos passar indicadores adicionais com o argumento na_values. Aqui, você vai fazer isso para garantir que CEPs inválidos no conjunto de dados de impostos de Vermont sejam codificados como NA.

pandas já foi importado como pd.

Este exercício faz parte do curso

Ingestão de dados simplificada com pandas

Ver curso

Instruções do exercício

  • Crie um dicionário, null_values, especificando que 0s na coluna zipcode devem ser considerados valores NA.
  • Carregue vt_tax_data_2016.csv, usando o argumento na_values e o dicionário para garantir que CEPs inválidos sejam tratados como ausentes.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Create dict specifying that 0s in zipcode are NA values
null_values = {____}

# Load csv using na_values keyword argument
data = pd.read_csv("vt_tax_data_2016.csv", 
                   ____)

# View rows with NA ZIP codes
print(data[data.zipcode.isna()])
Editar e executar o código