Classificatievoorspellingen
Bij modelvalidatie is het vaak belangrijk om meer te weten over de voorspellingen dan alleen de uiteindelijke classificatie. Als je voorspelt wie een wedstrijd wint, wil je meestal ook weten hoe waarschijnlijk het is dat een team wint.
| Probability | Prediction | Meaning |
|---|---|---|
| 0 < .50 | 0 | Team Loses |
| .50 + | 1 | Team Wins |
In deze oefening bekijk je de methoden .predict() en .predict_proba() met de tic_tac_toe-gegevensset. De eerste methode geeft een voorspelling of Speler Eén het spel wint, en de tweede methode geeft de kans dat Speler Eén wint. Gebruik rfc als het random forest-classificatiemodel.
Deze oefening maakt deel uit van de cursus
Modelvalidatie in Python
Oefeninstructies
- Maak twee arrays met voorspellingen: één voor de classificatiewaarden en één voor de voorspelde waarschijnlijkheden.
- Gebruik de methode
.value_counts()voor een pandas Series om het aantal observaties per klasse te printen. - Print de eerste observatie van
probability_predictionsom te zien hoe de waarschijnlijkheden zijn opgebouwd.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Fit the rfc model.
rfc.fit(X_train, y_train)
# Create arrays of predictions
classification_predictions = rfc.____(X_test)
probability_predictions = rfc.____(X_test)
# Print out count of binary predictions
print(pd.Series(____).____())
# Print the first value from probability_predictions
print('The first predicted probabilities are: {}'.format(____[____]))