Selezionare le caratteristiche rilevanti
In questo esercizio individuerai le colonne ridondanti nel dataset volunteer ed eseguirai la selezione delle caratteristiche per ottenere un DataFrame con le caratteristiche rilevanti.
Per esempio, se esplori il dataset volunteer nella console, vedrai tre caratteristiche legate alla posizione: locality, region e postalcode. Contengono informazioni correlate, quindi ha senso mantenere una sola di queste caratteristiche.
Prenditi un momento per esaminare le caratteristiche di volunteer nella console e prova a identificare quelle ridondanti.
Questo esercizio fa parte del corso
Preprocessing per il Machine Learning in Python
Istruzioni dell'esercizio
- Crea un elenco dei nomi delle colonne ridondanti e salvalo nella variabile
to_drop:- Tra tutte le caratteristiche legate alla posizione, mantieni solo
postalcode. - Anche le caratteristiche che hanno subito il processo di feature engineering sono ridondanti.
- Tra tutte le caratteristiche legate alla posizione, mantieni solo
- Elimina dal dataset le colonne nella lista
to_drop. - Stampa
.head()divolunteer_subsetper vedere le colonne selezionate.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create a list of redundant column names to drop
to_drop = ["____", "____", "____", "____", "____"]
# Drop those columns from the dataset
volunteer_subset = ____.____(____, ____)
# Print out the head of volunteer_subset
print(____)