Modelización del conjunto de datos UFO, parte 2

Por último, construirás un modelo con el vector de texto que hemos creado, desc_tfidf, utilizando la lista filtered_words para crear un vector de texto filtrado. A ver si puedes predecir el type del avistamiento basándote en el texto. Para ello utilizarás un modelo Naive Bayes.

Este ejercicio forma parte del curso

Preprocesamiento para machine learning en Python

Ver curso

Instrucciones del ejercicio

Filtra el vector desc_tfidf pasando una lista de filtered_words al índice.
Divide las características filtered_text y y, garantizando una distribución de clases igual en los conjuntos de entrenamiento y de prueba; utiliza un random_state de 42.
Utiliza el modelo nb de .fit() para ajustar X_train y y_train.
Imprime el .score() del modelo nb en los conjuntos X_test y y_test.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Use the list of filtered words we created to filter the text vector
filtered_text = ____[:, list(____)]

# Split the X and y sets using train_test_split, setting stratify=y 
X_train, X_test, y_train, y_test = ____(____.toarray(), ____, ____, random_state=42)

# Fit nb to the training sets
____

# Print the score of nb on the test sets
____

Editar y ejecutar código