Caractéristiques textuelles de haut niveau
Une fois le texte nettoyé et normalisé, vous pouvez commencer à créer des variables à partir des données. L’information la plus fondamentale que vous pouvez calculer sur un texte libre est sa taille, par exemple sa longueur et son nombre de mots. Dans cet exercice (et pour le reste de ce chapitre), vous vous concentrerez sur la colonne de texte nettoyée/transformée (text_clean) que vous avez créée à l’exercice précédent.
Cet exercice fait partie du cours
Feature engineering pour le Machine Learning en Python
Instructions
- Enregistrez la longueur en caractères de chaque discours dans la colonne
char_count. - Enregistrez le nombre de mots de chaque discours dans la colonne
word_count. - Enregistrez la longueur moyenne des mots de chaque discours dans la colonne
avg_word_length.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Find the length of each text
speech_df['char_cnt'] = speech_df['text_clean'].____
# Count the number of words in each text
speech_df['word_cnt'] = speech_df['text_clean'].____
# Find the average length of word
speech_df['avg_word_length'] = ____ / ____
# Print the first 5 rows of these columns
print(speech_df[['text_clean', 'char_cnt', 'word_cnt', 'avg_word_length']])