Modeling van de UFO-gegevensset, deel 2
Tot slot bouw je een model met de tekstvector die we hebben gemaakt, desc_tfidf, waarbij je de lijst filtered_words gebruikt om een gefilterde tekstvector te maken. Laten we kijken of je het type waarneming kunt voorspellen op basis van de tekst. Je gebruikt hiervoor een Naive Bayes-model.
Deze oefening maakt deel uit van de cursus
Preprocessing voor Machine Learning in Python
Oefeninstructies
- Filter de
desc_tfidf-vector door een lijst metfiltered_wordsin de index door te geven. - Split de
filtered_text-features eny, met een gelijke klassenverdeling in de trainings- en testsets; gebruik eenrandom_statevan42. - Gebruik
.fit()van hetnb-model omX_traineny_trainte fitten. - Print de
.score()van hetnb-model op deX_test- eny_test-sets.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Use the list of filtered words we created to filter the text vector
filtered_text = ____[:, list(____)]
# Split the X and y sets using train_test_split, setting stratify=y
X_train, X_test, y_train, y_test = ____(____.toarray(), ____, ____, random_state=42)
# Fit nb to the training sets
____
# Print the score of nb on the test sets
____