CommencerCommencer gratuitement

Un peu d'analyse de texte sur Twitter

Maintenant que vous avez configuré votre DataFrame de tweets, vous allez effectuer une analyse de texte pour compter combien de tweets contiennent les mots 'clinton', 'trump', 'sanders' et 'cruz'. Dans le code du pré-exercice, nous avons défini la fonction suivante word_in_text(), qui vous dira si le premier argument (un mot) se trouve à l'intérieur du deuxième argument (un tweet).

import re

def word_in_text(word, text):

    word = word.lower()

    text = text.lower()

    match = re.search(word, text)


    if match:

        return True

    return False

Vous allez itérer sur les lignes du DataFrame et calculer combien de tweets contiennent chacun de nos mots-clés ! La liste des objets de chaque candidat a été initialisée à 0.

Cet exercice fait partie du cours

Intermédiaire Importer des données en Python

Afficher le cours

Instructions

  • Dans la boucle for for index, row in df.iterrows(): , le code augmente actuellement la valeur de clinton par 1 chaque fois qu'un tweet (ligne de texte) mentionnant "Clinton" est rencontré ; complétez le code pour qu'il en soit de même pour trump, sanders et cruz.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Initialize list to store tweet counts
[clinton, trump, sanders, cruz] = [0, 0, 0, 0]

# Iterate through df, counting the number of tweets in which
# each candidate is mentioned
for index, row in df.iterrows():
    clinton += word_in_text('clinton', row['text'])
    trump += word_in_text(____, ____)
    sanders += word_in_text(____, ____)
    cruz += word_in_text(____, ____)
Modifier et exécuter le code