ComenzarEmpieza gratis

Clasificación de textos mediante vectores tf/idf

Ahora que has codificado la columna title del conjunto de datos volunteer en vectores tf/idf, utilizarás esos vectores para predecir la columna category_desc.

Este ejercicio forma parte del curso

Preprocesamiento para machine learning en Python

Ver curso

Instrucciones de ejercicio

  • Divide el vector text_tfidf y la variable objetivo y en conjuntos de entrenamiento y de prueba, estableciendo el parámetro stratify igual a y, ya que la distribución de clases es desigual. Observa que tenemos que ejecutar el método .toarray() sobre el vector tf/idf, para obtener en él el formato adecuado para scikit-learn.
  • Ajusta los datos de X_train y y_train al modelo Naive Bayes, nb.
  • Imprime la precisión del conjunto de pruebas.

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Split the dataset according to the class distribution of category_desc
y = volunteer["category_desc"]
X_train, X_test, y_train, y_test = ____(____.toarray(), ____, ____=____, random_state=42)

# Fit the model to the training data
nb.____(____, ____)

# Print out the model's accuracy
print(nb.____(____, ____))
Editar y ejecutar código