Un poco de análisis de texto en Twitter
Ahora que ya tienes configurado tu DataFrame de tuits, vas a realizar un pequeño análisis de texto para contar cuántos tuits contienen las palabras « 'clinton'
», « 'trump'
», « 'sanders'
» y « 'cruz'
». En el código previo al ejercicio, hemos definido la siguiente función word_in_text()
, que te indicará si el primer argumento (una palabra) aparece dentro del segundo argumento (un tuit).
import re
def word_in_text(word, text):
word = word.lower()
text = text.lower()
match = re.search(word, text)
if match:
return True
return False
Vas a iterar sobre las filas del DataFrame y calcular cuántos tuits contienen cada una de nuestras palabras clave. La lista de objetos para cada candidato se ha inicializado a 0.
Este ejercicio forma parte del curso
Importación de datos intermedios en Python
Instrucciones del ejercicio
- Dentro del bucle
for
for index, row in df.iterrows():
, el código actual aumenta el valor declinton
en1
cada vez que se encuentra un tuit (fila de texto) que menciona «Clinton»; completa el código para que ocurra lo mismo contrump
,sanders
ycruz
.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Initialize list to store tweet counts
[clinton, trump, sanders, cruz] = [0, 0, 0, 0]
# Iterate through df, counting the number of tweets in which
# each candidate is mentioned
for index, row in df.iterrows():
clinton += word_in_text('clinton', row['text'])
trump += word_in_text(____, ____)
sanders += word_in_text(____, ____)
cruz += word_in_text(____, ____)