Stap 2: Een vectorizer bouwen

In deze oefening bouw je een TfIDf-transformatie van de kolom review in de gegevensset reviews. Je geeft de n-grams, stopwoorden, het token-patroon en de grootte van de vocabulary-argumenten op.

Dit is de laatste stap voordat we een classifier trainen om het sentiment van een review te voorspellen.

Zorg dat je het maximale aantal features goed instelt, want een heel grote vocabulairegrootte kan je sessie laten vastlopen.

Deze oefening maakt deel uit van de cursus

Sentimentanalyse in Python

Bekijk cursus

Oefeninstructies

Importeer de Tfidf-vectorizer en de standaardlijst met Engelse stopwoorden.
Bouw de Tfidf-vectorizer en specificeer — in deze volgorde — de volgende argumenten: gebruik als stopwoorden de standaardlijst met Engelse stopwoorden; gebruik als n-grams uni- en bi-grams; het maximale aantal features moet 200 zijn; neem alleen woorden mee met het opgegeven patroon.
Maak een DataFrame met behulp van de Tfidf-vectorizer.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Import the TfidfVectorizer and default list of English stop words
from sklearn.feature_extraction.text import ____, ____

# Build the vectorizer
vect = ____(____=____, ____=(1, 2), ____=200, ____=r'\b[^\d\W][^\d\W]+\b').fit(reviews.review)
# Create sparse matrix from the vectorizer
X = vect.transform(reviews.review)

# Create a DataFrame
reviews_transformed = pd.DataFrame(X.____, columns=vect.____)
print('Top 5 rows of the DataFrame: \n', reviews_transformed.head())

Code bewerken en uitvoeren