Modelización del conjunto de datos UFO, parte 2
Por último, construirás un modelo con el vector de texto que hemos creado, desc_tfidf, utilizando la lista filtered_words para crear un vector de texto filtrado. A ver si puedes predecir el type del avistamiento basándote en el texto. Para ello utilizarás un modelo Naive Bayes.
Este ejercicio forma parte del curso
Preprocesamiento para machine learning en Python
Instrucciones del ejercicio
- Filtra el vector
desc_tfidfpasando una lista defiltered_wordsal índice. - Divide las características
filtered_textyy, garantizando una distribución de clases igual en los conjuntos de entrenamiento y de prueba; utiliza unrandom_statede42. - Utiliza el modelo
nbde.fit()para ajustarX_trainyy_train. - Imprime el
.score()del modelonben los conjuntosX_testyy_test.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Use the list of filtered words we created to filter the text vector
filtered_text = ____[:, list(____)]
# Split the X and y sets using train_test_split, setting stratify=y
X_train, X_test, y_train, y_test = ____(____.toarray(), ____, ____, random_state=42)
# Fit nb to the training sets
____
# Print the score of nb on the test sets
____