IniziaInizia gratis

Classificazione di testo usando vettori tf/idf

Ora che hai codificato la colonna title del dataset volunteer in vettori tf/idf, userai questi vettori per prevedere la colonna category_desc.

Questo esercizio fa parte del corso

Preprocessing per il Machine Learning in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Suddividi il vettore text_tfidf e la variabile target y in training set e test set, impostando il parametro stratify uguale a y, dato che la distribuzione delle classi è sbilanciata. Nota che dobbiamo eseguire il metodo .toarray() sul vettore tf/idf per ottenere il formato corretto per scikit-learn.
  • Adatta i dati X_train e y_train al modello Naive Bayes, nb.
  • Stampa l'accuratezza sul test set.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Split the dataset according to the class distribution of category_desc
y = volunteer["category_desc"]
X_train, X_test, y_train, y_test = ____(____.toarray(), ____, ____=____, random_state=42)

# Fit the model to the training data
nb.____(____, ____)

# Print out the model's accuracy
print(nb.____(____, ____))
Modifica ed esegui il codice