Costruire un modello di random forest
Lavorerai di nuovo sul dataset Pima Indians per prevedere se una persona ha il diabete, questa volta usando un classificatore random forest. Eseguirai il training del modello sui dati di addestramento dopo aver effettuato lo split train-test e consulterai i valori di importanza delle feature.
Gli insiemi di dati delle feature e del target sono già stati caricati come X e y. Lo stesso vale per i pacchetti e le funzioni necessari.
Questo esercizio fa parte del corso
Riduzione della dimensionalità in Python
Istruzioni dell'esercizio
- Imposta una dimensione del test al 25% per effettuare uno split train-test 75%-25%.
- Addestra il classificatore random forest sui dati di training.
- Calcola l'accuracy sul test set.
- Stampa le feature importances per ciascuna feature.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Perform a 75% training and 25% test data split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=____, random_state=0)
# Fit the random forest model to the training data
rf = RandomForestClassifier(random_state=0)
rf.____(____, ____)
# Calculate the accuracy
acc = accuracy_score(____, ____)
# Print the importances per feature
print(dict(zip(X.columns, rf.____.round(2))))
# Print accuracy
print(f"{acc:.1%} accuracy on test set.")