Processamento de grandes quantidades de dados do Twitter
Às vezes, os dados que precisamos processar atingem um tamanho muito grande para a memória do computador. Esse é um problema comum enfrentado pelos cientistas de dados. Uma solução para isso é processar uma fonte de dados inteira, parte por parte, em vez de tudo de uma vez só.
Neste exercício, você fará exatamente isso. Você processará um grande arquivo csv de dados do Twitter da mesma forma que processou 'tweets.csv'
em Reunindo tudo do curso de introdução, mas, desta vez, trabalhará nele em partes de 10 entradas por vez.
Se você tiver interesse em aprender como acessar os dados do Twitter para trabalhar com eles no seu próprio sistema, consulte a Parte 2 do curso sobre Importação de dados em Python do DataCamp.
O pacote pandas foi importado como pd
e o arquivo 'tweets.csv'
está no diretório atual para você usar.
Esteja ciente de que esses são dados reais do Twitter e, portanto, há sempre o risco de que eles contenham palavrões ou outros conteúdos ofensivos (neste exercício e em quaisquer exercícios seguintes que também usem dados reais do Twitter).
Este exercício faz parte do curso
Caixa de ferramentas Python
Instruções de exercício
- Inicialize um dicionário vazio
counts_dict
para armazenar os resultados do processamento dos dados do Twitter. - Itere sobre o arquivo
'tweets.csv'
usando um loopfor
. Use a variável de loopchunk
e itere sobre a chamada depd.read_csv()
com umchunksize
de 10. - No loop interno, itere sobre a coluna
'lang'
emchunk
usando um loopfor
. Use a variável de loopentry
.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Initialize an empty dictionary: counts_dict
# Iterate over the file chunk by chunk
for ____ in ____:
# Iterate over the column in DataFrame
for ____ in ____:
if entry in counts_dict.keys():
counts_dict[entry] += 1
else:
counts_dict[entry] = 1
# Print the populated dictionary
print(counts_dict)