Clasificación de textos mediante vectores tf/idf
Ahora que has codificado la columna title
del conjunto de datos volunteer
en vectores tf/idf, utilizarás esos vectores para predecir la columna category_desc
.
Este ejercicio forma parte del curso
Preprocesamiento para machine learning en Python
Instrucciones de ejercicio
- Divide el vector
text_tfidf
y la variable objetivoy
en conjuntos de entrenamiento y de prueba, estableciendo el parámetrostratify
igual ay
, ya que la distribución de clases es desigual. Observa que tenemos que ejecutar el método.toarray()
sobre el vector tf/idf, para obtener en él el formato adecuado para scikit-learn. - Ajusta los datos de
X_train
yy_train
al modelo Naive Bayes,nb
. - Imprime la precisión del conjunto de pruebas.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Split the dataset according to the class distribution of category_desc
y = volunteer["category_desc"]
X_train, X_test, y_train, y_test = ____(____.toarray(), ____, ____=____, random_state=42)
# Fit the model to the training data
nb.____(____, ____)
# Print out the model's accuracy
print(nb.____(____, ____))