Modellierung des UFO-Datensatzes, Teil 2

Zum Schluss baust du ein Modell mit dem von uns erstellten Textvektor desc_tfidf und verwendest die Liste filtered_words, um einen gefilterten Textvektor zu erzeugen. Mal sehen, ob du den type der Sichtung anhand des Textes vorhersagen kannst. Dafür nutzt du ein Naive-Bayes-Modell.

Diese Übung ist Teil des Kurses

<Kurs>Vorverarbeitung für Machine Learning in Python</Kurs>

Kurs ansehen

Übungsanweisungen

Filtere den Vektor desc_tfidf, indem du eine Liste von filtered_words in den Index übergibst.
Splitte die Merkmale filtered_text und y und stelle eine gleichmäßige Klassenverteilung in Trainings- und Testsatz sicher; verwende random_state gleich 42.
Nutze .fit() des nb-Modells, um X_train und y_train zu fitten.
Gib den Wert von .score() des nb-Modells auf den Sets X_test und y_test aus.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Use the list of filtered words we created to filter the text vector
filtered_text = ____[:, list(____)]

# Split the X and y sets using train_test_split, setting stratify=y 
X_train, X_test, y_train, y_test = ____(____.toarray(), ____, ____, random_state=42)

# Fit nb to the training sets
____

# Print the score of nb on the test sets
____

Code bearbeiten und ausführen