Construir un modelo de random forest
Vas a volver a trabajar con el conjunto de datos de Pima Indians para predecir si una persona tiene diabetes, esta vez usando un clasificador de random forest. Ajustarás el modelo con los datos de entrenamiento después de realizar la división train-test y consultarás los valores de importancia de las características.
Los conjuntos de características y objetivo ya se han precargado como X y y. También tienes listas las librerías y funciones necesarias.
Este ejercicio forma parte del curso
Reducción de dimensionalidad en Python
Instrucciones del ejercicio
- Establece un tamaño de prueba del 25% para realizar una división train-test del 75%-25%.
- Ajusta el clasificador de random forest a los datos de entrenamiento.
- Calcula la exactitud en el conjunto de prueba.
- Imprime la importancia de cada característica.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Perform a 75% training and 25% test data split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=____, random_state=0)
# Fit the random forest model to the training data
rf = RandomForestClassifier(random_state=0)
rf.____(____, ____)
# Calculate the accuracy
acc = accuracy_score(____, ____)
# Print the importances per feature
print(dict(zip(X.columns, rf.____.round(2))))
# Print accuracy
print(f"{acc:.1%} accuracy on test set.")