Luchtvaart-sentiment met stopwoorden
Je krijgt een gegevensset, tweets, met beoordelingen en sentimenten van klanten over luchtvaartmaatschappijen. Deze bestaat uit twee kolommen: airline_sentiment en text, waarbij het sentiment positief, negatief of neutraal kan zijn, en de text de tekst van de tweet bevat.
In deze oefening maak je een BOW-representatie, maar hierbij houd je rekening met de stopwoorden. Onthoud dat stopwoorden niet informatief zijn en dat je ze vaak wilt verwijderen. Dat levert een kleinere woordenschat en uiteindelijk minder features op. Houd er rekening mee dat we een standaardlijst met stopwoorden kunnen uitbreiden met woorden die specifiek zijn voor onze context.
Deze oefening maakt deel uit van de cursus
Sentimentanalyse in Python
Oefeninstructies
- Importeer de standaardlijst met Engelse stopwoorden.
- Breid de standaardlijst met stopwoorden uit met de gegeven lijst
['airline', 'airlines', '@']ommy_stop_wordste maken. - Geef het argument voor stopwoorden op in de vectorizer.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import the stop words
from sklearn.feature_extraction.text import CountVectorizer, ____
# Define the stop words
my_stop_words = ____.____(['airline', 'airlines', '@'])
# Build and fit the vectorizer
vect = CountVectorizer(____=my_stop_words)
vect.fit(tweets.text)
# Create the bow representation
X_review = vect.transform(tweets.text)
# Create the data frame
X_df = pd.DataFrame(X_review.toarray(), columns=vect.get_feature_names())
print(X_df.head())