TfIdf op Twitter-sentimentdata van luchtvaartmaatschappijen

Je gaat nu features bouwen met de TfIdf-methode. Je werkt verder met de tweets-gegevensset.

In deze oefening pas je toe wat je in eerdere lessen hebt geleerd: stopwoorden verwijderen, een token pattern gebruiken en de n-grams specificeren.

De uiteindelijke output is een DataFrame waarvan de kolommen zijn gemaakt met TfidfVectorizer(). Zo’n DataFrame kun je direct doorgeven aan een supervised learning-model, waar we in het volgende hoofdstuk mee aan de slag gaan.

Deze oefening maakt deel uit van de cursus

Sentimentanalyse in Python

Cursus bekijken

Oefeninstructies

Importeer het benodigde pakket om een TfidfVectorizer en de ENGLISH_STOP_WORDS te bouwen.
Bouw een TfIdf-vectorizer op basis van de kolom text van de tweets-gegevensset. Specificeer uni- en bi-grams als keuze voor n-grams, tokens die alleen alfanumerieke tekens bevatten met het gegeven token pattern, en de stopwoorden die horen bij ENGLISH_STOP_WORDS.
Transformeer met de vectorizer, waarbij je dezelfde kolom specificeert als waarop je hebt gefit.
Geef de kolomnamen door in de functie DataFrame().

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Import the required vectorizer package and stop words list
____

# Define the vectorizer and specify the arguments
my_pattern = r'\b[^\d\W][^\d\W]+\b'
vect = ____(____=(1, 2), max_features=100, ____=my_pattern, ____=ENGLISH_STOP_WORDS).fit(tweets.text)

# Transform the vectorizer
X_txt = vect.____(____.____)

# Transform to a data frame and specify the column names
X=pd.DataFrame(X_txt.toarray(), columns=____.____)
print('Top 5 rows of the DataFrame: ', X.head())

Code bewerken en uitvoeren