TfIdf op Twitter-sentimentdata van luchtvaartmaatschappijen
Je gaat nu features bouwen met de TfIdf-methode. Je werkt verder met de tweets-gegevensset.
In deze oefening pas je toe wat je in eerdere lessen hebt geleerd: stopwoorden verwijderen, een token pattern gebruiken en de n-grams specificeren.
De uiteindelijke output is een DataFrame waarvan de kolommen zijn gemaakt met TfidfVectorizer(). Zo’n DataFrame kun je direct doorgeven aan een supervised learning-model, waar we in het volgende hoofdstuk mee aan de slag gaan.
Deze oefening maakt deel uit van de cursus
Sentimentanalyse in Python
Oefeninstructies
- Importeer het benodigde pakket om een TfidfVectorizer en de
ENGLISH_STOP_WORDSte bouwen. - Bouw een TfIdf-vectorizer op basis van de kolom
textvan detweets-gegevensset. Specificeer uni- en bi-grams als keuze voor n-grams, tokens die alleen alfanumerieke tekens bevatten met het gegeven token pattern, en de stopwoorden die horen bijENGLISH_STOP_WORDS. - Transformeer met de vectorizer, waarbij je dezelfde kolom specificeert als waarop je hebt gefit.
- Geef de kolomnamen door in de functie
DataFrame().
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import the required vectorizer package and stop words list
____
# Define the vectorizer and specify the arguments
my_pattern = r'\b[^\d\W][^\d\W]+\b'
vect = ____(____=(1, 2), max_features=100, ____=my_pattern, ____=ENGLISH_STOP_WORDS).fit(tweets.text)
# Transform the vectorizer
X_txt = vect.____(____.____)
# Transform to a data frame and specify the column names
X=pd.DataFrame(X_txt.toarray(), columns=____.____)
print('Top 5 rows of the DataFrame: ', X.head())