LoslegenKostenlos loslegen

Wörter zählen (I)

Sobald die Informationen auf hoher Ebene erfasst sind, kannst du beginnen, Features auf Basis des tatsächlichen Inhalts jedes Textes zu erstellen. Ein Ansatz ist, so ähnlich vorzugehen wie bei kategorialen Variablen in den vorherigen Lektionen.

  • Für jedes eindeutige Wort im Datensatz wird eine Spalte erstellt.
  • Für jeden Eintrag wird gezählt, wie oft dieses Wort vorkommt, und dieser Zählwert wird in die entsprechende Spalte eingetragen.

Diese „Count“-Spalten können dann zum Trainieren von Machine-Learning-Modellen verwendet werden.

Diese Übung ist Teil des Kurses

Feature Engineering für Machine Learning in Python

Kurs anzeigen

Anleitung zur Übung

  • Importiere CountVectorizer aus sklearn.feature_extraction.text.
  • Instanziiere CountVectorizer und weise es cv zu.
  • Fitte den Vektorisierer auf die Spalte text_clean.
  • Gib die vom Vektorisierer erzeugten Feature-Namen aus.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Import CountVectorizer
____

# Instantiate CountVectorizer
cv = ____

# Fit the vectorizer
cv.____(speech_df['text_clean'])

# Print feature names
print(cv.____)
Code bearbeiten und ausführen