CountVectorizer per la classificazione del testo

È il momento di iniziare a costruire il tuo classificatore di testo! I dati sono stati caricati in un DataFrame chiamato df. Esploralo nell'IPython Shell per vedere quali colonne puoi usare. Il metodo .head() è particolarmente utile.

In questo esercizio userai pandas insieme a scikit-learn per creare un vettorizzatore testuale sparso con cui addestrare e testare un semplice modello supervisionato. Per cominciare, imposterai un CountVectorizer e ne esplorerai alcune funzionalità.

Questo esercizio fa parte del corso

Introduzione al Natural Language Processing in Python

Visualizza corso

Istruzioni dell'esercizio

Importa CountVectorizer da sklearn.feature_extraction.text e train_test_split da sklearn.model_selection.
Crea una Series y da usare come etichette assegnando l'attributo .label di df a y.
Usando df["text"] (feature) e y (etichette), crea i set di training e test con train_test_split(). Usa test_size=0.33 e random_state=53.
Crea un oggetto CountVectorizer chiamato count_vectorizer. Assicurati di specificare l'argomento stop_words="english" per rimuovere le stop word.
Esegui fit e transform dei dati di training X_train usando il metodo .fit_transform() del tuo oggetto CountVectorizer. Fai lo stesso con i dati di test X_test, ma usando il metodo .transform().
Stampa le prime 10 feature di count_vectorizer usando il suo metodo .get_feature_names().

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Import the necessary modules
____
____

# Print the head of df
print(df.head())

# Create a series to store the labels: y
y = ____

# Create training and test sets
X_train, X_test, y_train, y_test = ____

# Initialize a CountVectorizer object: count_vectorizer
count_vectorizer = ____

# Transform the training data using only the 'text' column values: count_train 
count_train = ____

# Transform the test data using only the 'text' column values: count_test 
count_test = ____

# Print the first 10 features of the count_vectorizer
print(____[:10])

Modifica ed esegui il codice