Modeling van de UFO-gegevensset, deel 2

Tot slot bouw je een model met de tekstvector die we hebben gemaakt, desc_tfidf, waarbij je de lijst filtered_words gebruikt om een gefilterde tekstvector te maken. Laten we kijken of je het type waarneming kunt voorspellen op basis van de tekst. Je gebruikt hiervoor een Naive Bayes-model.

Deze oefening maakt deel uit van de cursus

Preprocessing voor Machine Learning in Python

Cursus bekijken

Oefeninstructies

Filter de desc_tfidf-vector door een lijst met filtered_words in de index door te geven.
Split de filtered_text-features en y, met een gelijke klassenverdeling in de trainings- en testsets; gebruik een random_state van 42.
Gebruik .fit() van het nb-model om X_train en y_train te fitten.
Print de .score() van het nb-model op de X_test- en y_test-sets.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Use the list of filtered words we created to filter the text vector
filtered_text = ____[:, list(____)]

# Split the X and y sets using train_test_split, setting stratify=y 
X_train, X_test, y_train, y_test = ____(____.toarray(), ____, ____, random_state=42)

# Fit nb to the training sets
____

# Print the score of nb on the test sets
____

Code bewerken en uitvoeren