LoslegenKostenlos starten

Wörter zählen (I)

Sobald die Informationen auf hoher Ebene erfasst sind, kannst du beginnen, Features auf Basis des tatsächlichen Inhalts jedes Textes zu erstellen. Ein Ansatz ist, so ähnlich vorzugehen wie bei kategorialen Variablen in den vorherigen Lektionen.

  • Für jedes eindeutige Wort im Datensatz wird eine Spalte erstellt.
  • Für jeden Eintrag wird gezählt, wie oft dieses Wort vorkommt, und dieser Zählwert wird in die entsprechende Spalte eingetragen.

Diese „Count“-Spalten können dann zum Trainieren von Machine-Learning-Modellen verwendet werden.

Diese Übung ist Teil des Kurses

<Kurs>Feature Engineering für Machine Learning in Python</Kurs>
Kurs ansehen

Übungsanweisungen

  • Importiere CountVectorizer aus sklearn.feature_extraction.text.
  • Instanziiere CountVectorizer und weise es cv zu.
  • Fitte den Vektorisierer auf die Spalte text_clean.
  • Gib die vom Vektorisierer erzeugten Feature-Namen aus.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Import CountVectorizer
____

# Instantiate CountVectorizer
cv = ____

# Fit the vectorizer
cv.____(speech_df['text_clean'])

# Print feature names
print(cv.____)
Code bearbeiten und ausführen