Modelando o conjunto de dados de OVNIs, parte 2

Por fim, você vai construir um modelo usando o vetor de texto que criamos, desc_tfidf, aproveitando a lista filtered_words para criar um vetor de texto filtrado. Vamos ver se você consegue prever o type do avistamento com base no texto. Você usará um modelo de Naive Bayes para isso.

Este exercício faz parte do curso

Pré-processamento para Machine Learning em Python

Ver curso

Instruções do exercício

Filtre o vetor desc_tfidf passando uma lista de filtered_words no índice.
Separe as variáveis filtered_text e y, garantindo uma distribuição de classes igual nos conjuntos de treino e teste; use random_state igual a 42.
Use o .fit() do modelo nb para ajustar X_train e y_train.
Imprima o .score() do modelo nb nos conjuntos X_test e y_test.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Use the list of filtered words we created to filter the text vector
filtered_text = ____[:, list(____)]

# Split the X and y sets using train_test_split, setting stratify=y 
X_train, X_test, y_train, y_test = ____(____.toarray(), ____, ____, random_state=42)

# Fit nb to the training sets
____

# Print the score of nb on the test sets
____

Editar e executar o código