Passo 2: costruire un vectorizer
In questo esercizio ti viene chiesto di costruire una trasformazione TfIDf della colonna review nel dataset reviews. Devi specificare gli n-grammi, le stop word, il pattern dei token e la dimensione del vocabolario come argomenti.
Questo è l'ultimo passaggio prima di addestrare un classificatore per prevedere il sentiment di una recensione.
Assicurati di impostare correttamente il numero massimo di feature, perché un vocabolario troppo grande potrebbe disconnettere la tua sessione.
Questo esercizio fa parte del corso
Sentiment Analysis con Python
Istruzioni dell'esercizio
- Importa il Tfidf vectorizer e l'elenco predefinito di stop word inglesi.
- Crea il Tfidf vectorizer specificando, in questo ordine, i seguenti argomenti: usa come stop word l'elenco predefinito di stop word inglesi; come n-grammi usa uni- e bi-grammi; il numero massimo di feature deve essere 200; cattura solo le parole usando il pattern indicato.
- Crea un DataFrame usando il Tfidf vectorizer.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Import the TfidfVectorizer and default list of English stop words
from sklearn.feature_extraction.text import ____, ____
# Build the vectorizer
vect = ____(____=____, ____=(1, 2), ____=200, ____=r'\b[^\d\W][^\d\W]+\b').fit(reviews.review)
# Create sparse matrix from the vectorizer
X = vect.transform(reviews.review)
# Create a DataFrame
reviews_transformed = pd.DataFrame(X.____, columns=vect.____)
print('Top 5 rows of the DataFrame: \n', reviews_transformed.head())