Classificação de texto usando vetores tf/idf
Agora que você codificou a coluna title
do conjunto de dados volunteer
em vetores tf/idf, você usará esses vetores para prever a coluna category_desc
.
Este exercício faz parte do curso
Pré-processamento para aprendizado de máquina em Python
Instruções do exercício
- Divida o vetor
text_tfidf
e a variável-alvoy
em conjuntos de treinamento e teste, definindo o parâmetrostratify
igual ay
, já que a distribuição de classes é desigual. Observe que temos que executar o método.toarray()
no vetor tf/idf, a fim de obter nele o formato adequado para o scikit-learn. - Ajuste os dados de
X_train
ey_train
ao modelo Naive Bayes,nb
. - Imprima a precisão do conjunto de teste.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Split the dataset according to the class distribution of category_desc
y = volunteer["category_desc"]
X_train, X_test, y_train, y_test = ____(____.toarray(), ____, ____=____, random_state=42)
# Fit the model to the training data
nb.____(____, ____)
# Print out the model's accuracy
print(nb.____(____, ____))