Meerdere tekstkolommen
In deze oefening werk je verder met de Twitter-data van luchtvaartmaatschappijen. Een gegevensset tweets is al voor je geïmporteerd.
Soms heb je meer dan één tekstkolom in een gegevensset en wil je voor elke tekstkolom een numerieke representatie maken. Hier is er, naast de kolom text met de inhoud van de tweet, een tweede tekstkolom genaamd negativereason. Die bevat de reden waarom de klant een negatieve review gaf.
Jouw taak is om BOW-representaties te bouwen voor beide kolommen en de vereiste stopwoorden te specificeren.
Deze oefening maakt deel uit van de cursus
Sentimentanalyse in Python
Oefeninstructies
- Importeer het vectorizer-pakket en de standaardlijst met Engelse stopwoorden.
- Werk de standaardlijst met Engelse stopwoorden bij en maak de set
my_stop_words. - Geef in de eerste vectorizer het argument voor stopwoorden op als de bijgewerkte set, en in de tweede vectorizer de standaardset met Engelse stopwoorden.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import the vectorizer and default English stop words list
____
# Define the stop words
my_stop_words = ____._____(['airline', 'airlines', '@', 'am', 'pm'])
# Build and fit the vectorizers
vect1 = CountVectorizer(____=my_stop_words)
vect2 = CountVectorizer(____=____)
vect1.fit(tweets.text)
vect2.fit(tweets.negative_reason)
# Print the last 15 features from the first, and all from second vectorizer
print(vect1.get_feature_names()[-15:])
print(vect2.get_feature_names())