LoslegenKostenlos starten

Tf-idf

Häufigkeitszählungen von Wörtern können beim Modellieren hilfreich sein, aber sehr häufig vorkommende Wörter können die Ergebnisse ungünstig verzerren. Um zu verhindern, dass solche häufigen Wörter dein Modell dominieren, kann eine Form der Normalisierung eingesetzt werden. In dieser Lektion verwendest du Term Frequency–Inverse Document Frequency (Tf-idf), wie im Video besprochen. Tf-idf verringert den Einfluss häufiger Wörter und erhöht das Gewicht von Wörtern, die in wenigen Dokumenten vorkommen.

Diese Übung ist Teil des Kurses

<Kurs>Feature Engineering für Machine Learning in Python</Kurs>
Kurs ansehen

Übungsanweisungen

  • Importiere TfidfVectorizer aus sklearn.feature_extraction.text.
  • Instanziiere TfidfVectorizer, begrenze die Anzahl der Features auf 100 und entferne englische Stoppwörter.
  • Passe den Vektorisierer an und wende ihn in einem Schritt auf die Spalte text_clean an.
  • Erstelle ein DataFrame tv_df, das die Gewichte der Wörter enthält und die Featurenamen als Spaltennamen verwendet.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Import TfidfVectorizer
____

# Instantiate TfidfVectorizer
tv = ____

# Fit the vectroizer and transform the data
tv_transformed = ____(speech_df['text_clean'])

# Create a DataFrame with these features
tv_df = pd.DataFrame(tv_transformed.____, 
                     columns=tv.____).add_prefix('TFIDF_')
print(tv_df.head())
Code bearbeiten und ausführen