Modelización del conjunto de datos UFO, parte 2
Por último, construirás un modelo con el vector de texto que hemos creado, desc_tfidf
, utilizando la lista filtered_words
para crear un vector de texto filtrado. A ver si puedes predecir el type
del avistamiento basándote en el texto. Para ello utilizarás un modelo Naive Bayes.
Este ejercicio forma parte del curso
Preprocesamiento para machine learning en Python
Instrucciones del ejercicio
- Filtra el vector
desc_tfidf
pasando una lista defiltered_words
al índice. - Divide las características
filtered_text
yy
, garantizando una distribución de clases igual en los conjuntos de entrenamiento y de prueba; utiliza unrandom_state
de42
. - Utiliza el modelo
nb
de.fit()
para ajustarX_train
yy_train
. - Imprime el
.score()
del modelonb
en los conjuntosX_test
yy_test
.
Ejercicio interactivo práctico
Prueba este ejercicio completando el código de muestra.
# Use the list of filtered words we created to filter the text vector
filtered_text = ____[:, list(____)]
# Split the X and y sets using train_test_split, setting stratify=y
X_train, X_test, y_train, y_test = ____(____.toarray(), ____, ____, random_state=42)
# Fit nb to the training sets
____
# Print the score of nb on the test sets
____