Codifica delle variabili categoriche
Nel dataset sugli UFO ci sono un paio di colonne che vanno codificate prima di poterle usare in scikit-learn. Farai qui questa trasformazione, usando sia la codifica binaria sia la one-hot encoding.
Questo esercizio fa parte del corso
Preprocessing per il Machine Learning in Python
Istruzioni dell'esercizio
- Usando
apply(), scrivi una funzionelambdacondizionale che restituisca1se il valore è"us", altrimenti restituisca 0. - Stampa il numero di valori
.unique()nella colonnatype. - Usando
pd.get_dummies(), crea un set one-hot encoded della colonnatype. - Infine, usa
pd.concat()per concatenare le variabili codificatetype_setal datasetufo.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Use pandas to encode us values as 1 and others as 0
ufo["country_enc"] = ufo["country"].____
# Print the number of unique type values
print(len(____.unique()))
# Create a one-hot encoded set of the type values
type_set = ____
# Concatenate this set back to the ufo DataFrame
ufo = pd.concat([____, ____], axis=1)