Conversione delle variabili categoriche
Dato che sklearn richiede caratteristiche numeriche come input per i modelli, è importante codificare le variabili categoriche in variabili numeriche. La tecnica più comune, chiamata "one-hot encoding", è semplice ma consuma molta memoria. Per questo, userai la tecnica dell'hashing, che mappa gli input categorici in valori numerici, per ciascuna colonna categorica.
Il modulo pandas è disponibile come pd nel tuo workspace e il DataFrame di esempio è caricato come df.
Questo esercizio fa parte del corso
Prevedere il CTR con il Machine Learning in Python
Istruzioni dell'esercizio
- Seleziona le colonne categoriche filtrando per tipo di dato.
- Applica una funzione di hash a ciascuna delle colonne categoriche.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Get categorical columns
categorical_cols = df.____(
include = [____]).columns.tolist()
print("Categorical columns: ")
print(categorical_cols)
# Iterate over categorical columns and apply hash function
for col in ____:
df[col] = df[col].____(lambda x: ____(x))
# Print examples of new output
print(df.head(5))