Buscando texto donde no toca
Recuerda que el texto relevante no siempre está en el campo principal text del tuit. También puede estar en extended_tweet, retweeted_status o quoted_status. Tenemos que revisar todos estos campos para asegurarnos de que contamos todo el texto relevante. Haremos esto a menudo, así que vamos a crear una función que lo haga.
Las dos primeras líneas comprueban si el campo principal text o extended_tweet contiene el texto. Te toca comprobar el resto.
Este ejercicio forma parte del curso
Análisis de datos de redes sociales con Python
Instrucciones del ejercicio
Termina la función check_word_in_tweet haciendo lo siguiente:
- Comprueba si el campo
quoted_status-textcontiene la palabra. - Comprueba si el campo
quoted_status-extended_tweet-full_textcontiene la palabra. - Comprueba si el campo
retweeted_status-textcontiene la palabra. - Comprueba si el campo
retweeted_status-extended_tweet-full_textcontiene la palabra.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
def check_word_in_tweet(word, data):
"""Checks if a word is in a Twitter dataset's text.
Checks text and extended tweet (140+ character tweets) for tweets,
retweets and quoted tweets.
Returns a logical pandas Series.
"""
contains_column = data['text'].str.contains(word, case = False)
contains_column |= data['extended_tweet-full_text'].str.contains(word, case = False)
contains_column |= data[____].str.contains(word, case = False)
contains_column |= data[____].____.____(____, case = False)
contains_column |= data[____].____.____(____, ____)
contains_column |= ____[____].____.____(____, ____)
return contains_column