Processamento de grandes quantidades de dados do Twitter

Às vezes, os dados que precisamos processar atingem um tamanho muito grande para a memória do computador. Esse é um problema comum enfrentado pelos cientistas de dados. Uma solução para isso é processar uma fonte de dados inteira, parte por parte, em vez de tudo de uma vez só.

Neste exercício, você fará exatamente isso. Você processará um grande arquivo csv de dados do Twitter da mesma forma que processou 'tweets.csv' em Reunindo tudo do curso de introdução, mas, desta vez, trabalhará nele em partes de 10 entradas por vez.

Se você tiver interesse em aprender como acessar os dados do Twitter para trabalhar com eles no seu próprio sistema, consulte a Parte 2 do curso sobre Importação de dados em Python do DataCamp.

O pacote pandas foi importado como pd e o arquivo 'tweets.csv' está no diretório atual para você usar.

Esteja ciente de que esses são dados reais do Twitter e, portanto, há sempre o risco de que eles contenham palavrões ou outros conteúdos ofensivos (neste exercício e em quaisquer exercícios seguintes que também usem dados reais do Twitter).

Este exercício faz parte do curso

Caixa de ferramentas Python

Ver curso

Instruções do exercício

Inicialize um dicionário vazio counts_dict para armazenar os resultados do processamento dos dados do Twitter.
Itere sobre o arquivo 'tweets.csv' usando um loop for. Use a variável de loop chunk e itere sobre a chamada de pd.read_csv() com um chunksize de 10.
No loop interno, itere sobre a coluna 'lang' em chunk usando um loop for. Use a variável de loop entry.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Initialize an empty dictionary: counts_dict


# Iterate over the file chunk by chunk
for ____ in ____:

    # Iterate over the column in DataFrame
    for ____ in ____:
        if entry in counts_dict.keys():
            counts_dict[entry] += 1
        else:
            counts_dict[entry] = 1

# Print the populated dictionary
print(counts_dict)

Editar e executar o código