Classificazione di testo usando vettori tf/idf
Ora che hai codificato la colonna title del dataset volunteer in vettori tf/idf, userai questi vettori per prevedere la colonna category_desc.
Questo esercizio fa parte del corso
Preprocessing per il Machine Learning in Python
Istruzioni dell'esercizio
- Suddividi il vettore
text_tfidfe la variabile targetyin training set e test set, impostando il parametrostratifyuguale ay, dato che la distribuzione delle classi è sbilanciata. Nota che dobbiamo eseguire il metodo.toarray()sul vettore tf/idf per ottenere il formato corretto per scikit-learn. - Adatta i dati
X_trainey_trainal modello Naive Bayes,nb. - Stampa l'accuratezza sul test set.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Split the dataset according to the class distribution of category_desc
y = volunteer["category_desc"]
X_train, X_test, y_train, y_test = ____(____.toarray(), ____, ____=____, random_state=42)
# Fit the model to the training data
nb.____(____, ____)
# Print out the model's accuracy
print(nb.____(____, ____))