One-hot encoding di colonne specifiche
Un concessionario locale di auto usate vuole il tuo aiuto per prevedere il prezzo di vendita dei propri veicoli. Se applichi la one-hot encoding all’intero insieme di dati used_cars, il nuovo insieme di dati avrà più di 1.200 colonne. Teme che questo possa creare problemi durante l’addestramento dei modelli di Machine Learning per prevedere il prezzo. Hai deciso di provare un approccio più semplice e applicare la one-hot encoding solo ad alcune colonne.
Questo esercizio fa parte del corso
Lavorare con i dati categorici in Python
Istruzioni dell'esercizio
- Crea un nuovo insieme di dati,
used_cars_simple, applicando la one-hot encoding a queste colonne:"manufacturer_name"e"transmission"(in quest’ordine). - Imposta il prefisso di tutte le nuove colonne su
"dummy", in modo da poter filtrare facilmente quelle appena create.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create one-hot encoding for just two columns
used_cars_simple = pd.____(
used_cars,
# Specify the columns from the instructions
____,
# Set the prefix
____
)
# Print the shape of the new dataset
print(used_cars_simple.shape)