ComeçarComece de graça

Classificação de texto usando vetores tf/idf

Agora que você codificou a coluna title do conjunto de dados volunteer em vetores tf/idf, você usará esses vetores para prever a coluna category_desc.

Este exercício faz parte do curso

Pré-processamento para aprendizado de máquina em Python

Ver curso

Instruções do exercício

  • Divida o vetor text_tfidf e a variável-alvo y em conjuntos de treinamento e teste, definindo o parâmetro stratify igual a y, já que a distribuição de classes é desigual. Observe que temos que executar o método .toarray() no vetor tf/idf, a fim de obter nele o formato adequado para o scikit-learn.
  • Ajuste os dados de X_train e y_train ao modelo Naive Bayes, nb.
  • Imprima a precisão do conjunto de teste.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Split the dataset according to the class distribution of category_desc
y = volunteer["category_desc"]
X_train, X_test, y_train, y_test = ____(____.toarray(), ____, ____=____, random_state=42)

# Fit the model to the training data
nb.____(____, ____)

# Print out the model's accuracy
print(nb.____(____, ____))
Editar e executar o código