IniziaInizia gratis

Conversione delle variabili categoriche

Dato che sklearn richiede caratteristiche numeriche come input per i modelli, è importante codificare le variabili categoriche in variabili numeriche. La tecnica più comune, chiamata "one-hot encoding", è semplice ma consuma molta memoria. Per questo, userai la tecnica dell'hashing, che mappa gli input categorici in valori numerici, per ciascuna colonna categorica.

Il modulo pandas è disponibile come pd nel tuo workspace e il DataFrame di esempio è caricato come df.

Questo esercizio fa parte del corso

Prevedere il CTR con il Machine Learning in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Seleziona le colonne categoriche filtrando per tipo di dato.
  • Applica una funzione di hash a ciascuna delle colonne categoriche.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Get categorical columns
categorical_cols = df.____(
  include = [____]).columns.tolist()
print("Categorical columns: ")
print(categorical_cols)

# Iterate over categorical columns and apply hash function
for col in ____:
	df[col] = df[col].____(lambda x: ____(x))

# Print examples of new output
print(df.head(5))
Modifica ed esegui il codice