TfIdf auf Twitter-Daten zur Airline-Stimmung
Jetzt erstellst du Features mit der TfIdf-Methode und arbeitest weiter mit dem Datensatz tweets.
In dieser Übung nutzt du, was du in den vorherigen Lektionen gelernt hast: entferne Stoppwörter, verwende ein Token-Muster und gib die N-Gramme an.
Die Ausgabe ist ein DataFrame, dessen Spalten mit TfidfVectorizer() erzeugt werden. So ein DataFrame kann direkt an ein überwachtes Lernmodell übergeben werden – genau darum geht es im nächsten Kapitel.
Diese Übung ist Teil des Kurses
Stimmungsanalyse in Python
Anleitung zur Übung
- Importiere das nötige Paket, um einen TfidfVectorizer und die
ENGLISH_STOP_WORDSzu verwenden. - Erstelle einen TfIdf-Vektorisierer aus der Spalte
textdestweets-Datensatzes. Gib dabei Uni- und Bi-Gramme als Auswahl der N-Gramme an, Tokens mit ausschließlich alphanumerischen Zeichen mithilfe des vorgegebenen Token-Musters sowie die Stoppwörter entsprechendENGLISH_STOP_WORDS. - Wende den Vektorisierer an, und zwar auf dieselbe Spalte, auf der du ihn fit gesetzt hast.
- Gib die Spaltennamen in der Funktion
DataFrame()an.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import the required vectorizer package and stop words list
____
# Define the vectorizer and specify the arguments
my_pattern = r'\b[^\d\W][^\d\W]+\b'
vect = ____(____=(1, 2), max_features=100, ____=my_pattern, ____=ENGLISH_STOP_WORDS).fit(tweets.text)
# Transform the vectorizer
X_txt = vect.____(____.____)
# Transform to a data frame and specify the column names
X=pd.DataFrame(X_txt.toarray(), columns=____.____)
print('Top 5 rows of the DataFrame: ', X.head())