Un peu d’analyse de texte sur Twitter
Maintenant que votre DataFrame de tweets est prêt, vous allez faire un peu d’analyse de texte pour compter combien de tweets contiennent les mots 'clinton', 'trump', 'sanders' et 'cruz'. Dans le code pré-exercice, nous avons défini la fonction suivante word_in_text() qui indique si le premier argument (un mot) apparaît dans le deuxième argument (un tweet).
import re
def word_in_text(word, text):
word = word.lower()
text = text.lower()
match = re.search(word, text)
if match:
return True
return False
Vous allez itérer sur les lignes du DataFrame et calculer combien de tweets contiennent chacun de nos mots-clés ! La liste des compteurs pour chaque candidat a été initialisée à 0.
Cet exercice fait partie du cours
Importation intermédiaire de données en Python
Instructions
- Dans la boucle
forfor index, row in df.iterrows():, le code augmente actuellement la valeur declintonde1chaque fois qu’un tweet (ligne de texte) mentionnant « Clinton » est rencontré ; complétez le code pour que la même chose se produise pourtrump,sandersetcruz.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Initialize list to store tweet counts
[clinton, trump, sanders, cruz] = [0, 0, 0, 0]
# Iterate through df, counting the number of tweets in which
# each candidate is mentioned
for index, row in df.iterrows():
clinton += word_in_text('clinton', row['text'])
trump += word_in_text(____, ____)
sanders += word_in_text(____, ____)
cruz += word_in_text(____, ____)