Classificação de texto usando vetores tf/idf
Agora que você codificou a coluna title do conjunto de dados volunteer em vetores tf/idf, você vai usar esses vetores para prever a coluna category_desc.
Este exercício faz parte do curso
Pré-processamento para Machine Learning em Python
Instruções do exercício
- Divida o vetor
text_tfidfe a variável-alvoyem conjuntos de treino e teste, definindo o parâmetrostratifyigual ay, já que a distribuição das classes é desigual. Perceba que precisamos executar o método.toarray()no vetor tf/idf para obtê-lo no formato adequado para o scikit-learn. - Ajuste os dados
X_trainey_trainao modelo Naive Bayes,nb. - Imprima a acurácia no conjunto de teste.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Split the dataset according to the class distribution of category_desc
y = volunteer["category_desc"]
X_train, X_test, y_train, y_test = ____(____.toarray(), ____, ____=____, random_state=42)
# Fit the model to the training data
nb.____(____, ____)
# Print out the model's accuracy
print(nb.____(____, ____))