Razões
Embora não seja exatamente uma medida de importância em uma rede, a ideia de ser "ratio'd" é uma métrica específica do Twitter e costuma ser usada para avaliar a impopularidade de um tweet. "The Ratio", como é chamada, é calculada pegando o número de respostas e dividindo pelo número de retweets. Para o nosso objetivo, faz sentido conceitual considerar apenas os in-degrees das redes de retweet e de resposta.
As redes G_rt e G_reply, e column_names = ['screen_name', 'degree'] já foram carregadas para você.
Este exercício faz parte do curso
Analisando dados de mídias sociais em Python
Instruções do exercício
- Calcule o in-degree para a rede de retweet com o método do grafo
.in_degree(). - Faça o mesmo para a rede de resposta.
- Una os dois DataFrames usando
.merge(). - Calcule a razão. Os nomes das colunas são
degree_replyedegree_rt.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Calculate in-degrees and store in DataFrame
degree_rt = pd.DataFrame(list(____.____()), columns = column_names)
degree_reply = pd.DataFrame(list(____.____()), columns = column_names)
# Merge the two DataFrames on screen name
ratio = ____.____(____, on = 'screen_name', suffixes = ('_rt', '_reply'))
# Calculate the ratio
ratio['ratio'] = ____ / ____
# Exclude any tweets with less than 5 retweets
ratio = ratio[ratio['degree_rt'] >= 5]
# Print out first five with highest ratio
print(ratio.sort_values('ratio', ascending = False).head())