Un peu d’analyse de texte sur Twitter

Maintenant que votre DataFrame de tweets est prêt, vous allez faire un peu d’analyse de texte pour compter combien de tweets contiennent les mots 'clinton', 'trump', 'sanders' et 'cruz'. Dans le code pré-exercice, nous avons défini la fonction suivante word_in_text() qui vous indique si le premier argument (un mot) apparaît dans le second argument (un tweet).

import re

def word_in_text(word, text):
    word = word.lower()
    text = text.lower()
    match = re.search(word, text)

    if match:
        return True
    return False

Vous allez parcourir les lignes du DataFrame et calculer combien de tweets contiennent chacun de nos mots-clés ! La liste des compteurs pour chaque candidat a été initialisée à 0.

Cet exercice fait partie du cours

<cours>Importation intermédiaire de données en Python</cours>

Voir le cours

Instructions de l’exercice

Dans la boucle for for index, row in df.iterrows():, le code augmente actuellement la valeur de clinton de 1 chaque fois qu’un tweet (ligne de texte) mentionnant « Clinton » est rencontré ; complétez le code pour que la même chose se produise pour trump, sanders et cruz.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Initialize list to store tweet counts
[clinton, trump, sanders, cruz] = [0, 0, 0, 0]

# Iterate through df, counting the number of tweets in which
# each candidate is mentioned
for index, row in df.iterrows():
    clinton += word_in_text('clinton', row['text'])
    trump += word_in_text(____, ____)
    sanders += word_in_text(____, ____)
    cruz += word_in_text(____, ____)

Modifier et exécuter le code