LoslegenKostenlos loslegen

Tf-idf

Häufigkeitszählungen von Wörtern können beim Modellieren hilfreich sein, aber sehr häufig vorkommende Wörter können die Ergebnisse ungünstig verzerren. Um zu verhindern, dass solche häufigen Wörter dein Modell dominieren, kann eine Form der Normalisierung eingesetzt werden. In dieser Lektion verwendest du Term Frequency–Inverse Document Frequency (Tf-idf), wie im Video besprochen. Tf-idf verringert den Einfluss häufiger Wörter und erhöht das Gewicht von Wörtern, die in wenigen Dokumenten vorkommen.

Diese Übung ist Teil des Kurses

Feature Engineering für Machine Learning in Python

Kurs anzeigen

Anleitung zur Übung

  • Importiere TfidfVectorizer aus sklearn.feature_extraction.text.
  • Instanziiere TfidfVectorizer, begrenze die Anzahl der Features auf 100 und entferne englische Stoppwörter.
  • Passe den Vektorisierer an und wende ihn in einem Schritt auf die Spalte text_clean an.
  • Erstelle ein DataFrame tv_df, das die Gewichte der Wörter enthält und die Featurenamen als Spaltennamen verwendet.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Import TfidfVectorizer
____

# Instantiate TfidfVectorizer
tv = ____

# Fit the vectroizer and transform the data
tv_transformed = ____(speech_df['text_clean'])

# Create a DataFrame with these features
tv_df = pd.DataFrame(tv_transformed.____, 
                     columns=tv.____).add_prefix('TFIDF_')
print(tv_df.head())
Code bearbeiten und ausführen