Define valores NA personalizados
Parte de la exploración y limpieza de datos consiste en comprobar si hay valores ausentes o NA y decidir cómo tratarlos. Esto es más fácil cuando los valores ausentes se consideran su propio tipo de dato, y existen funciones de pandas que se dirigen específicamente a esos valores NA. pandas trata automáticamente algunos valores como ausentes, pero podemos pasar indicadores adicionales de NA con el argumento na_values. Aquí, harás esto para asegurarte de que los códigos ZIP no válidos en los datos fiscales de Vermont se codifiquen como NA.
pandas se ha importado como pd.
Este ejercicio forma parte del curso
Ingesta de datos eficiente con pandas
Instrucciones del ejercicio
- Crea un diccionario,
null_values, que indique que los0de la columnazipcodedeben considerarse valores NA. - Carga
vt_tax_data_2016.csv, usando el argumentona_valuesy el diccionario para asegurarte de que los códigos ZIP no válidos se traten como ausentes.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Create dict specifying that 0s in zipcode are NA values
null_values = {____}
# Load csv using na_values keyword argument
data = pd.read_csv("vt_tax_data_2016.csv",
____)
# View rows with NA ZIP codes
print(data[data.zipcode.isna()])