Um pouco de análise de texto do Twitter
Agora que você tem seu DataFrame de tweets configurado, você fará uma pequena análise de texto para contar quantos tweets contêm as palavras 'clinton'
, 'trump'
, 'sanders'
e 'cruz'
. No código do pré-exercício, definimos a seguinte função word_in_text()
, que dirá a você se o primeiro argumento (uma palavra) ocorre dentro do segundo argumento (um tweet).
import re
def word_in_text(word, text):
word = word.lower()
text = text.lower()
match = re.search(word, text)
if match:
return True
return False
Você vai iterar sobre as linhas do DataFrame e calcular quantos tweets contêm cada uma de nossas palavras-chave! A lista de objetos para cada candidato foi inicializada em 0.
Este exercício faz parte do curso
Importação intermediária de dados em Python
Instruções de exercício
- No loop
for
for index, row in df.iterrows():
, o código atualmente aumenta o valor declinton
em1
cada vez que um tweet (linha de texto) mencionando 'Clinton' é encontrado; complete o código para que o mesmo aconteça comtrump
,sanders
ecruz
.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Initialize list to store tweet counts
[clinton, trump, sanders, cruz] = [0, 0, 0, 0]
# Iterate through df, counting the number of tweets in which
# each candidate is mentioned
for index, row in df.iterrows():
clinton += word_in_text('clinton', row['text'])
trump += word_in_text(____, ____)
sanders += word_in_text(____, ____)
cruz += word_in_text(____, ____)