Textfeatures auf hoher Ebene
Sobald der Text bereinigt und standardisiert wurde, kannst du Features aus den Daten erstellen. Die grundlegendsten Informationen, die du für freien Text berechnen kannst, betreffen seine Größe, etwa die Länge und die Anzahl der Wörter. In dieser Übung (und im restlichen Kapitel) konzentrierst du dich auf die bereinigte/transformierte Textspalte (text_clean), die du in der letzten Übung erstellt hast.
Diese Übung ist Teil des Kurses
Feature Engineering für Machine Learning in Python
Anleitung zur Übung
- Speichere die Zeichenlänge jeder Rede in der Spalte
char_count. - Speichere die Wortanzahl jeder Rede in der Spalte
word_count. - Speichere die durchschnittliche Wortlänge jeder Rede in der Spalte
avg_word_length.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Find the length of each text
speech_df['char_cnt'] = speech_df['text_clean'].____
# Count the number of words in each text
speech_df['word_cnt'] = speech_df['text_clean'].____
# Find the average length of word
speech_df['avg_word_length'] = ____ / ____
# Print the first 5 rows of these columns
print(speech_df[['text_clean', 'char_cnt', 'word_cnt', 'avg_word_length']])