Stap 2: Een vectorizer bouwen
In deze oefening bouw je een TfIDf-transformatie van de kolom review in de gegevensset reviews. Je geeft de n-grams, stopwoorden, het token-patroon en de grootte van de vocabulary-argumenten op.
Dit is de laatste stap voordat we een classifier trainen om het sentiment van een review te voorspellen.
Zorg dat je het maximale aantal features goed instelt, want een heel grote vocabulairegrootte kan je sessie laten vastlopen.
Deze oefening maakt deel uit van de cursus
Sentimentanalyse in Python
Oefeninstructies
- Importeer de Tfidf-vectorizer en de standaardlijst met Engelse stopwoorden.
- Bouw de Tfidf-vectorizer en specificeer — in deze volgorde — de volgende argumenten: gebruik als stopwoorden de standaardlijst met Engelse stopwoorden; gebruik als n-grams uni- en bi-grams; het maximale aantal features moet 200 zijn; neem alleen woorden mee met het opgegeven patroon.
- Maak een DataFrame met behulp van de Tfidf-vectorizer.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import the TfidfVectorizer and default list of English stop words
from sklearn.feature_extraction.text import ____, ____
# Build the vectorizer
vect = ____(____=____, ____=(1, 2), ____=200, ____=r'\b[^\d\W][^\d\W]+\b').fit(reviews.review)
# Create sparse matrix from the vectorizer
X = vect.transform(reviews.review)
# Create a DataFrame
reviews_transformed = pd.DataFrame(X.____, columns=vect.____)
print('Top 5 rows of the DataFrame: \n', reviews_transformed.head())