Modellierung des UFO-Datensatzes, Teil 2
Zum Schluss baust du ein Modell mit dem von uns erstellten Textvektor desc_tfidf und verwendest die Liste filtered_words, um einen gefilterten Textvektor zu erzeugen. Mal sehen, ob du den type der Sichtung anhand des Textes vorhersagen kannst. Dafür nutzt du ein Naive-Bayes-Modell.
Diese Übung ist Teil des Kurses
Vorverarbeitung für Machine Learning in Python
Anleitung zur Übung
- Filtere den Vektor
desc_tfidf, indem du eine Liste vonfiltered_wordsin den Index übergibst. - Splitte die Merkmale
filtered_textundyund stelle eine gleichmäßige Klassenverteilung in Trainings- und Testsatz sicher; verwenderandom_stategleich42. - Nutze
.fit()desnb-Modells, umX_trainundy_trainzu fitten. - Gib den Wert von
.score()desnb-Modells auf den SetsX_testundy_testaus.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Use the list of filtered words we created to filter the text vector
filtered_text = ____[:, list(____)]
# Split the X and y sets using train_test_split, setting stratify=y
X_train, X_test, y_train, y_test = ____(____.toarray(), ____, ____, random_state=42)
# Fit nb to the training sets
____
# Print the score of nb on the test sets
____