Contar variables categóricas
Hay un par de columnas en el conjunto de datos UFO que hay que codificar antes de poder modelarlas mediante scikit-learn. Harás esa transformación aquí, utilizando los métodos de codificación binaria y one-hot.
Este ejercicio forma parte del curso
Preprocesamiento para machine learning en Python
Instrucciones de ejercicio
- Utilizando
apply()
, escribe una función condicionallambda
que devuelva un1
si el valor es"us"
, en caso contrario devuelve 0. - Imprime el número de valores
.unique()
de la columnatype
. - Utilizando
pd.get_dummies()
, crea un conjunto codificado one-hot de la columnatype
. - Por último, utiliza
pd.concat()
para concatenar las variables codificadas entype_set
con el conjunto de datosufo
.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Use pandas to encode us values as 1 and others as 0
ufo["country_enc"] = ufo["country"].____
# Print the number of unique type values
print(len(____.unique()))
# Create a one-hot encoded set of the type values
type_set = ____
# Concatenate this set back to the ufo DataFrame
ufo = pd.concat([____, ____], axis=1)