Passo 2: costruire un vectorizer

In questo esercizio ti viene chiesto di costruire una trasformazione TfIDf della colonna review nel dataset reviews. Devi specificare gli n-grammi, le stop word, il pattern dei token e la dimensione del vocabolario come argomenti.

Questo è l'ultimo passaggio prima di addestrare un classificatore per prevedere il sentiment di una recensione.

Assicurati di impostare correttamente il numero massimo di feature, perché un vocabolario troppo grande potrebbe disconnettere la tua sessione.

Questo esercizio fa parte del corso

Sentiment Analysis con Python

Visualizza corso

Istruzioni dell'esercizio

Importa il Tfidf vectorizer e l'elenco predefinito di stop word inglesi.
Crea il Tfidf vectorizer specificando, in questo ordine, i seguenti argomenti: usa come stop word l'elenco predefinito di stop word inglesi; come n-grammi usa uni- e bi-grammi; il numero massimo di feature deve essere 200; cattura solo le parole usando il pattern indicato.
Crea un DataFrame usando il Tfidf vectorizer.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Import the TfidfVectorizer and default list of English stop words
from sklearn.feature_extraction.text import ____, ____

# Build the vectorizer
vect = ____(____=____, ____=(1, 2), ____=200, ____=r'\b[^\d\W][^\d\W]+\b').fit(reviews.review)
# Create sparse matrix from the vectorizer
X = vect.transform(reviews.review)

# Create a DataFrame
reviews_transformed = pd.DataFrame(X.____, columns=vect.____)
print('Top 5 rows of the DataFrame: \n', reviews_transformed.head())

Modifica ed esegui il codice