Un po' di analisi del testo su Twitter
Ora che hai impostato il tuo DataFrame di tweet, farai un po' di analisi del testo per contare quanti tweet contengono le parole 'clinton', 'trump', 'sanders' e 'cruz'. Nel codice pre-esercizio abbiamo definito la seguente funzione word_in_text(), che ti dice se il primo argomento (una parola) compare nel secondo argomento (un tweet).
import re
def word_in_text(word, text):
word = word.lower()
text = text.lower()
match = re.search(word, text)
if match:
return True
return False
Itererai sulle righe del DataFrame e calcolerai quanti tweet contengono ciascuna delle nostre parole chiave! L'elenco degli oggetti per ciascun candidato è stato inizializzato a 0.
Questo esercizio fa parte del corso
Importazione di dati in Python - livello intermedio
Istruzioni dell'esercizio
- All'interno del ciclo
forfor index, row in df.iterrows():, il codice attualmente incrementa il valore diclintondi1ogni volta che si incontra un tweet (riga di testo) che menziona 'Clinton'; completa il codice in modo che accada lo stesso pertrump,sandersecruz.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Initialize list to store tweet counts
[clinton, trump, sanders, cruz] = [0, 0, 0, 0]
# Iterate through df, counting the number of tweets in which
# each candidate is mentioned
for index, row in df.iterrows():
clinton += word_in_text('clinton', row['text'])
trump += word_in_text(____, ____)
sanders += word_in_text(____, ____)
cruz += word_in_text(____, ____)