Selezione delle feature

Quando prepari i dati per l’addestramento, è fondamentale assicurarti di avere un set di feature utili su cui il modello possa basare le sue previsioni (o diagnosi). Per essere davvero utili, le feature devono catturare le caratteristiche essenziali dell’insieme di dati sulle malattie cardiache in modo ortogonale; più dati non significa sempre meglio!

Puoi usare il modulo sklearn.feature_selection.SelectFromModel per selezionare le feature più rilevanti. SelectFromModel implementa un metodo esaustivo che utilizza un RandomForestClassifier per trovare le feature più salienti per il compito di diagnosi delle malattie cardiache.

RandomForestClassifier è già stato importato e le feature e il target dei dati sulle malattie cardiache sono stati importati rispettivamente come X_train e y_train.

Questo esercizio fa parte del corso

Machine Learning end-to-end

Visualizza corso

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

from sklearn.feature_selection import SelectFromModel

# Define the random forest model and fit to the training data
rf = ____(____=____, ____=____, ____=____)
rf.____(____, ____)

Modifica ed esegui il codice