Un peu d'analyse de texte sur Twitter
Maintenant que vous avez configuré votre DataFrame de tweets, vous allez effectuer une analyse de texte pour compter combien de tweets contiennent les mots 'clinton'
, 'trump'
, 'sanders'
et 'cruz'
. Dans le code du pré-exercice, nous avons défini la fonction suivante word_in_text()
, qui vous dira si le premier argument (un mot) se trouve à l'intérieur du deuxième argument (un tweet).
import re
def word_in_text(word, text):
word = word.lower()
text = text.lower()
match = re.search(word, text)
if match:
return True
return False
Vous allez itérer sur les lignes du DataFrame et calculer combien de tweets contiennent chacun de nos mots-clés ! La liste des objets de chaque candidat a été initialisée à 0.
Cet exercice fait partie du cours
Intermédiaire Importer des données en Python
Instructions
- Dans la boucle
for
for index, row in df.iterrows():
, le code augmente actuellement la valeur declinton
par1
chaque fois qu'un tweet (ligne de texte) mentionnant "Clinton" est rencontré ; complétez le code pour qu'il en soit de même pourtrump
,sanders
etcruz
.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Initialize list to store tweet counts
[clinton, trump, sanders, cruz] = [0, 0, 0, 0]
# Iterate through df, counting the number of tweets in which
# each candidate is mentioned
for index, row in df.iterrows():
clinton += word_in_text('clinton', row['text'])
trump += word_in_text(____, ____)
sanders += word_in_text(____, ____)
cruz += word_in_text(____, ____)