Costruire un modello di random forest

Lavorerai di nuovo sul dataset Pima Indians per prevedere se una persona ha il diabete, questa volta usando un classificatore random forest. Eseguirai il training del modello sui dati di addestramento dopo aver effettuato lo split train-test e consulterai i valori di importanza delle feature.

Gli insiemi di dati delle feature e del target sono già stati caricati come X e y. Lo stesso vale per i pacchetti e le funzioni necessari.

Questo esercizio fa parte del corso

Riduzione della dimensionalità in Python

Visualizza corso

Istruzioni dell'esercizio

Imposta una dimensione del test al 25% per effettuare uno split train-test 75%-25%.
Addestra il classificatore random forest sui dati di training.
Calcola l'accuracy sul test set.
Stampa le feature importances per ciascuna feature.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Perform a 75% training and 25% test data split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=____, random_state=0)

# Fit the random forest model to the training data
rf = RandomForestClassifier(random_state=0)
rf.____(____, ____)

# Calculate the accuracy
acc = accuracy_score(____, ____)

# Print the importances per feature
print(dict(zip(X.columns, rf.____.round(2))))

# Print accuracy
print(f"{acc:.1%} accuracy on test set.")

Modifica ed esegui il codice