Construindo um modelo de random forest
Você vai novamente trabalhar com o conjunto de dados Pima Indians para prever se uma pessoa tem diabetes, desta vez usando um classificador de random forest. Você vai ajustar o modelo nos dados de treino após realizar a divisão treino-teste e consultar os valores de importância das variáveis.
Os conjuntos de atributos e alvo já foram pré-carregados como X e y. O mesmo vale para os pacotes e funções necessários.
Este exercício faz parte do curso
Redução de Dimensionalidade em Python
Instruções do exercício
- Defina um tamanho de teste de 25% para realizar uma divisão treino-teste de 75%-25%.
- Ajuste o classificador de random forest aos dados de treino.
- Calcule a acurácia no conjunto de teste.
- Imprima as importâncias das variáveis por atributo.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Perform a 75% training and 25% test data split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=____, random_state=0)
# Fit the random forest model to the training data
rf = RandomForestClassifier(random_state=0)
rf.____(____, ____)
# Calculate the accuracy
acc = accuracy_score(____, ____)
# Print the importances per feature
print(dict(zip(X.columns, rf.____.round(2))))
# Print accuracy
print(f"{acc:.1%} accuracy on test set.")