Meerdere tekstkolommen

In deze oefening werk je verder met de Twitter-data van luchtvaartmaatschappijen. Een gegevensset tweets is al voor je geïmporteerd.

Soms heb je meer dan één tekstkolom in een gegevensset en wil je voor elke tekstkolom een numerieke representatie maken. Hier is er, naast de kolom text met de inhoud van de tweet, een tweede tekstkolom genaamd negativereason. Die bevat de reden waarom de klant een negatieve review gaf.

Jouw taak is om BOW-representaties te bouwen voor beide kolommen en de vereiste stopwoorden te specificeren.

Deze oefening maakt deel uit van de cursus

Sentimentanalyse in Python

Bekijk cursus

Oefeninstructies

Importeer het vectorizer-pakket en de standaardlijst met Engelse stopwoorden.
Werk de standaardlijst met Engelse stopwoorden bij en maak de set my_stop_words.
Geef in de eerste vectorizer het argument voor stopwoorden op als de bijgewerkte set, en in de tweede vectorizer de standaardset met Engelse stopwoorden.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Import the vectorizer and default English stop words list
____

# Define the stop words
my_stop_words = ____._____(['airline', 'airlines', '@', 'am', 'pm'])
 
# Build and fit the vectorizers
vect1 = CountVectorizer(____=my_stop_words)
vect2 = CountVectorizer(____=____) 
vect1.fit(tweets.text)
vect2.fit(tweets.negative_reason)

# Print the last 15 features from the first, and all from second vectorizer
print(vect1.get_feature_names()[-15:])
print(vect2.get_feature_names())

Code bewerken en uitvoeren