LoslegenKostenlos loslegen

Textfeatures auf hoher Ebene

Sobald der Text bereinigt und standardisiert wurde, kannst du Features aus den Daten erstellen. Die grundlegendsten Informationen, die du für freien Text berechnen kannst, betreffen seine Größe, etwa die Länge und die Anzahl der Wörter. In dieser Übung (und im restlichen Kapitel) konzentrierst du dich auf die bereinigte/transformierte Textspalte (text_clean), die du in der letzten Übung erstellt hast.

Diese Übung ist Teil des Kurses

Feature Engineering für Machine Learning in Python

Kurs anzeigen

Anleitung zur Übung

  • Speichere die Zeichenlänge jeder Rede in der Spalte char_count.
  • Speichere die Wortanzahl jeder Rede in der Spalte word_count.
  • Speichere die durchschnittliche Wortlänge jeder Rede in der Spalte avg_word_length.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Find the length of each text
speech_df['char_cnt'] = speech_df['text_clean'].____

# Count the number of words in each text
speech_df['word_cnt'] = speech_df['text_clean'].____

# Find the average length of word
speech_df['avg_word_length'] = ____ / ____

# Print the first 5 rows of these columns
print(speech_df[['text_clean', 'char_cnt', 'word_cnt', 'avg_word_length']])
Code bearbeiten und ausführen