CommencerCommencer gratuitement

Nombre de mots des conférences TED

ted est un dataframe qui contient les transcriptions de 500 conférences TED. Votre objectif est de calculer une nouvelle caractéristique word_count qui contient le nombre approximatif de mots pour chaque conférence. Vous devez donc aussi calculer le nombre moyen de mots des conférences. Les transcriptions sont disponibles dans la caractéristique transcript de ted.

Pour réaliser cette tâche, vous allez définir une fonction count_words qui prend une chaîne de caractères en argument et renvoie le nombre de mots dans cette chaîne. Vous appliquerez ensuite cette fonction à la caractéristique transcript de ted pour créer la nouvelle caractéristique word_count et en calculer la moyenne.

Cet exercice fait partie du cours

Feature Engineering pour le NLP en Python

Afficher le cours

Instructions

  • Séparez string en une liste de mots avec la méthode split().
  • Renvoyez le nombre d’éléments dans words à l’aide de len().
  • Appliquez votre fonction à la colonne transcript de ted pour créer la nouvelle caractéristique word_count.
  • Calculez le nombre moyen de mots des conférences avec mean().

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Function that returns number of words in a string
def count_words(string):
	# Split the string into words
    words = ____.____
    
    # Return the number of words
    return ____(____)

# Create a new feature word_count
ted['word_count'] = ted[____].apply(____)

# Print the average word count of the talks
print(ted[____].____)
Modifier et exécuter le code