CommencerCommencer gratuitement

Caractéristiques textuelles de haut niveau

Une fois le texte nettoyé et normalisé, vous pouvez commencer à créer des variables à partir des données. L’information la plus fondamentale que vous pouvez calculer sur un texte libre est sa taille, par exemple sa longueur et son nombre de mots. Dans cet exercice (et pour le reste de ce chapitre), vous vous concentrerez sur la colonne de texte nettoyée/transformée (text_clean) que vous avez créée à l’exercice précédent.

Cet exercice fait partie du cours

Feature engineering pour le Machine Learning en Python

Afficher le cours

Instructions

  • Enregistrez la longueur en caractères de chaque discours dans la colonne char_count.
  • Enregistrez le nombre de mots de chaque discours dans la colonne word_count.
  • Enregistrez la longueur moyenne des mots de chaque discours dans la colonne avg_word_length.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Find the length of each text
speech_df['char_cnt'] = speech_df['text_clean'].____

# Count the number of words in each text
speech_df['word_cnt'] = speech_df['text_clean'].____

# Find the average length of word
speech_df['avg_word_length'] = ____ / ____

# Print the first 5 rows of these columns
print(speech_df[['text_clean', 'char_cnt', 'word_cnt', 'avg_word_length']])
Modifier et exécuter le code