Een pipeline gebruiken
Nu je onze pipeline hebt gedefinieerd, oftewel een logistieke regressie gecombineerd met een SMOTE-methode, gaan we deze op de data draaien. Je kunt de pipeline behandelen alsof het een enkel machine learning-model is. Onze data X en y zijn al gedefinieerd, en de pipeline is opgesteld in de vorige oefening. Ben je benieuwd naar de modelresultaten? Laten we het proberen!
Deze oefening maakt deel uit van de cursus
Fraudedetectie in Python
Oefeninstructies
- Splits de data
Xenyin een trainings- en testset. Reserveer 30% van de data voor de testset en zetrandom_stateop nul. - Train je pipeline op de trainingsdata en verkrijg de voorspellingen door de functie
pipeline.predict()uit te voeren op onzeX_test-gegevensset.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Split your data X and y, into a training and a test set and fit the pipeline onto the training data
X_train, X_test, y_train, y_test = ____
# Fit your pipeline onto your training set and obtain predictions by fitting the model onto the test data
pipeline.fit(____, ____)
predicted = pipeline.____(____)
# Obtain the results from the classification report and confusion matrix
print('Classifcation report:\n', classification_report(y_test, predicted))
conf_mat = confusion_matrix(y_true=y_test, y_pred=predicted)
print('Confusion matrix:\n', conf_mat)