Luchtvaart-sentiment met stopwoorden

Je krijgt een gegevensset, tweets, met beoordelingen en sentimenten van klanten over luchtvaartmaatschappijen. Deze bestaat uit twee kolommen: airline_sentiment en text, waarbij het sentiment positief, negatief of neutraal kan zijn, en de text de tekst van de tweet bevat.

In deze oefening maak je een BOW-representatie, maar hierbij houd je rekening met de stopwoorden. Onthoud dat stopwoorden niet informatief zijn en dat je ze vaak wilt verwijderen. Dat levert een kleinere woordenschat en uiteindelijk minder features op. Houd er rekening mee dat we een standaardlijst met stopwoorden kunnen uitbreiden met woorden die specifiek zijn voor onze context.

Deze oefening maakt deel uit van de cursus

Sentimentanalyse in Python

Bekijk cursus

Oefeninstructies

Importeer de standaardlijst met Engelse stopwoorden.
Breid de standaardlijst met stopwoorden uit met de gegeven lijst ['airline', 'airlines', '@'] om my_stop_words te maken.
Geef het argument voor stopwoorden op in de vectorizer.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Import the stop words
from sklearn.feature_extraction.text import CountVectorizer, ____

# Define the stop words
my_stop_words = ____.____(['airline', 'airlines', '@'])

# Build and fit the vectorizer
vect = CountVectorizer(____=my_stop_words)
vect.fit(tweets.text)

# Create the bow representation
X_review = vect.transform(tweets.text)
# Create the data frame
X_df = pd.DataFrame(X_review.toarray(), columns=vect.get_feature_names())
print(X_df.head())

Code bewerken en uitvoeren