CommencerCommencer gratuitement

Un peu d’analyse de texte sur Twitter

Maintenant que votre DataFrame de tweets est prêt, vous allez faire un peu d’analyse de texte pour compter combien de tweets contiennent les mots 'clinton', 'trump', 'sanders' et 'cruz'. Dans le code pré-exercice, nous avons défini la fonction suivante word_in_text() qui indique si le premier argument (un mot) apparaît dans le deuxième argument (un tweet).

import re

def word_in_text(word, text):
    word = word.lower()
    text = text.lower()
    match = re.search(word, text)

    if match:
        return True
    return False

Vous allez itérer sur les lignes du DataFrame et calculer combien de tweets contiennent chacun de nos mots-clés ! La liste des compteurs pour chaque candidat a été initialisée à 0.

Cet exercice fait partie du cours

Importation intermédiaire de données en Python

Afficher le cours

Instructions

  • Dans la boucle for for index, row in df.iterrows():, le code augmente actuellement la valeur de clinton de 1 chaque fois qu’un tweet (ligne de texte) mentionnant « Clinton » est rencontré ; complétez le code pour que la même chose se produise pour trump, sanders et cruz.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Initialize list to store tweet counts
[clinton, trump, sanders, cruz] = [0, 0, 0, 0]

# Iterate through df, counting the number of tweets in which
# each candidate is mentioned
for index, row in df.iterrows():
    clinton += word_in_text('clinton', row['text'])
    trump += word_in_text(____, ____)
    sanders += word_in_text(____, ____)
    cruz += word_in_text(____, ____)
Modifier et exécuter le code