Nombre de caractères des tweets russes

Dans cet exercice, vous disposez d’un DataFrame tweets qui contient des tweets associés à l’Internet Research Agency russe et compilés par FiveThirtyEight.

Votre objectif est de créer une nouvelle variable « char_count » dans tweets qui calcule le nombre de caractères de chaque tweet. Calculez également la longueur moyenne des tweets. Les tweets se trouvent dans la variable content de tweets.

Sachez qu’il s’agit de données réelles issues de Twitter ; il existe donc un risque qu’elles contiennent des propos grossiers ou d’autres contenus offensants (dans cet exercice, ainsi que dans tout exercice ultérieur utilisant des données Twitter réelles).

Cet exercice fait partie du cours

<cours>Feature Engineering pour le NLP en Python</cours>

Voir le cours

Instructions de l’exercice

Créez une nouvelle variable char_count en appliquant len à la variable « content » de tweets.
Affichez le nombre moyen de caractères des tweets en calculant la moyenne de la variable « char_count ».

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Create a feature char_count
tweets['char_count'] = tweets[____].apply(____)

# Print the average character count
print(tweets[____].____)

Modifier et exécuter le code