Modelarea setului de date UFO, partea 2

În final, vei construi un model folosind vectorul de text creat anterior, desc_tfidf, și lista filtered_words pentru a crea un vector de text filtrat. Vom vedea dacă poți prezice tipul (type) observației pe baza textului. Vei folosi un model Naive Bayes pentru aceasta.

Acest exercițiu face parte din cursul

Preprocesare pentru Machine Learning în Python

Vezi cursul

Instrucțiuni pentru exercițiu

Filtrează vectorul desc_tfidf pasând o listă de filtered_words ca index.
Împarte caracteristicile filtered_text și y, asigurând o distribuție egală a claselor în seturile de antrenament și testare; folosește random_state cu valoarea 42.
Folosește metoda .fit() a modelului nb pentru a antrena modelul pe X_train și y_train.
Afișează scorul .score() al modelului nb pe seturile X_test și y_test.

Exercițiu interactiv practic

Încearcă acest exercițiu completând acest cod de exemplu.

# Use the list of filtered words we created to filter the text vector
filtered_text = ____[:, list(____)]

# Split the X and y sets using train_test_split, setting stratify=y 
X_train, X_test, y_train, y_test = ____(____.toarray(), ____, ____, random_state=42)

# Fit nb to the training sets
____

# Print the score of nb on the test sets
____

Editează și rulează codul