Modelování datasetu UFO, část 2

Teď sestavíš model pomocí textového vektoru desc_tfidf a seznamu filtered_words, ze kterého vytvoříš filtrovaný textový vektor. Uvidíme, jestli se ti podaří na základě textu předpovědět type pozorování. Použiješ k tomu model Naive Bayes.

Toto cvičení je součástí kurzu

Preprocessing pro Machine Learning v Pythonu

Zobrazit kurz

Pokyny k cvičení

Filtruj vektor desc_tfidf tak, že jako index předáš seznam filtered_words.
Rozděl příznaky filtered_text a y a zajisti rovnoměrné rozložení tříd v trénovací i testovací sadě; použij random_state s hodnotou 42.
Pomocí metody .fit() modelu nb natrénuj model na datech X_train a y_train.
Vypiš výsledek metody .score() modelu nb na sadách X_test a y_test.

Interaktivní cvičení na vyzkoušení si v praxi

Vyzkoušejte si toto cvičení dokončením tohoto ukázkového kódu.

# Use the list of filtered words we created to filter the text vector
filtered_text = ____[:, list(____)]

# Split the X and y sets using train_test_split, setting stratify=y 
X_train, X_test, y_train, y_test = ____(____.toarray(), ____, ____, random_state=42)

# Fit nb to the training sets
____

# Print the score of nb on the test sets
____

Upravit a spustit kód