Classificação de texto usando vetores tf/idf

Agora que você codificou a coluna title do conjunto de dados volunteer em vetores tf/idf, você vai usar esses vetores para prever a coluna category_desc.

Este exercicio faz parte do curso

Pré-processamento para Machine Learning em Python

Ver curso

Instruções do exercicio

Divida o vetor text_tfidf e a variável-alvo y em conjuntos de treino e teste, definindo o parâmetro stratify igual a y, já que a distribuição das classes é desigual. Perceba que precisamos executar o método .toarray() no vetor tf/idf para obtê-lo no formato adequado para o scikit-learn.
Ajuste os dados X_train e y_train ao modelo Naive Bayes, nb.
Imprima a acurácia no conjunto de teste.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Split the dataset according to the class distribution of category_desc
y = volunteer["category_desc"]
X_train, X_test, y_train, y_test = ____(____.toarray(), ____, ____=____, random_state=42)

# Fit the model to the training data
nb.____(____, ____)

# Print out the model's accuracy
print(nb.____(____, ____))

Editar e Executar Código