ComenzarEmpieza gratis

Define valores NA personalizados

Parte de la exploración y limpieza de datos consiste en comprobar si hay valores ausentes o NA y decidir cómo tratarlos. Esto es más fácil cuando los valores ausentes se consideran su propio tipo de dato, y existen funciones de pandas que se dirigen específicamente a esos valores NA. pandas trata automáticamente algunos valores como ausentes, pero podemos pasar indicadores adicionales de NA con el argumento na_values. Aquí, harás esto para asegurarte de que los códigos ZIP no válidos en los datos fiscales de Vermont se codifiquen como NA.

pandas se ha importado como pd.

Este ejercicio forma parte del curso

Ingesta de datos eficiente con pandas

Ver curso

Instrucciones del ejercicio

  • Crea un diccionario, null_values, que indique que los 0 de la columna zipcode deben considerarse valores NA.
  • Carga vt_tax_data_2016.csv, usando el argumento na_values y el diccionario para asegurarte de que los códigos ZIP no válidos se traten como ausentes.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Create dict specifying that 0s in zipcode are NA values
null_values = {____}

# Load csv using na_values keyword argument
data = pd.read_csv("vt_tax_data_2016.csv", 
                   ____)

# View rows with NA ZIP codes
print(data[data.zipcode.isna()])
Editar y ejecutar código