Nombre de mots des conférences TED
ted est un dataframe qui contient les transcriptions de 500 conférences TED. Votre objectif est de calculer une nouvelle caractéristique word_count qui contient le nombre approximatif de mots pour chaque conférence. Vous devez donc aussi calculer le nombre moyen de mots des conférences. Les transcriptions sont disponibles dans la caractéristique transcript de ted.
Pour réaliser cette tâche, vous allez définir une fonction count_words qui prend une chaîne de caractères en argument et renvoie le nombre de mots dans cette chaîne. Vous appliquerez ensuite cette fonction à la caractéristique transcript de ted pour créer la nouvelle caractéristique word_count et en calculer la moyenne.
Cet exercice fait partie du cours
Feature Engineering pour le NLP en Python
Instructions
- Séparez
stringen une liste de mots avec la méthodesplit(). - Renvoyez le nombre d’éléments dans
wordsà l’aide delen(). - Appliquez votre fonction à la colonne
transcriptdetedpour créer la nouvelle caractéristiqueword_count. - Calculez le nombre moyen de mots des conférences avec
mean().
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Function that returns number of words in a string
def count_words(string):
# Split the string into words
words = ____.____
# Return the number of words
return ____(____)
# Create a new feature word_count
ted['word_count'] = ted[____].apply(____)
# Print the average word count of the talks
print(ted[____].____)