Precisie en recall berekenen
De submodule sklearn.metrics bevat veel functies waarmee je eenvoudig interessante statistieken kunt berekenen. Tot nu toe heb je precisie en recall met de hand berekend – dat is belangrijk om je intuïtie voor deze twee statistieken te ontwikkelen.
In de praktijk kun je, zodra dat lukt, de functies precision_score en recall_score gebruiken die respectievelijk automatisch de precisie en recall berekenen. Ze werken vergelijkbaar met andere functies in sklearn.metrics: ze accepteren 2 argumenten: het eerste zijn de werkelijke labels (y_test), en het tweede zijn de voorspelde labels (y_pred).
Laten we nu een trainingsgrootte van 90% proberen.
Deze oefening maakt deel uit van de cursus
Marketinganalyse: klantverloop voorspellen in Python
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import train_test_split
from sklearn.model_selection import train_test_split
# Create feature variable
X = telco.drop('Churn', axis=1)
# Create target variable
y = telco['Churn']
# Create training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.1)
# Import RandomForestClassifier
from sklearn.ensemble import RandomForestClassifier
# Instantiate the classifier
clf = RandomForestClassifier()
# Fit to the training data
clf.fit(X_train, y_train)
# Predict the labels of the test set
y_pred = clf.predict(X_test)
# Import precision_score