Gestire un sacco di dati da Twitter

A volte, i dati che dobbiamo elaborare diventano così tanti che la memoria del computer non riesce a gestirli. Questo è un problema comune che i data scientist devono affrontare. Una soluzione a questo problema consiste nell'elaborare l'intera fonte di dati pezzo per pezzo, invece che tutta in una volta sola.

In questo esercizio, farai proprio questo. Elaborerai un grosso file csv di dati Twitter nello stesso modo in cui hai elaborato 'tweets.csv' in Mettendo tutto insieme del corso precedente, ma questa volta lavorando su blocchi di 10 voci alla volta.

Se vuoi sapere come accedere ai dati di Twitter per usarli sul tuo sistema, dai un'occhiata alla Parte 2 del corso DataCamp sull'importazione dei dati in Python.

Il pacchetto pandas è stato importato come pd e il file 'tweets.csv' è nella tua directory attuale, pronto per essere usato.

Tieni presente che questi sono dati reali provenienti da Twitter e quindi c'è sempre il rischio che possano contenere parolacce o altri contenuti offensivi (in questo esercizio e in tutti quelli successivi che usano dati reali di Twitter).

Questo esercizio fa parte del corso

Strumenti per Python

Visualizza il corso

Istruzioni dell'esercizio

Inizia un dizionario vuoto chiamato ` counts_dict ` per salvare i risultati dell'elaborazione dei dati di Twitter.
Passa in rassegna il file 'tweets.csv' usando un ciclo for. Usa la variabile di ciclo chunk e ripeti la chiamata a pd.read_csv() con un chunksize di 10.
Nel ciclo interno, fai un giro sulle colonne 'lang' in chunk usando un ciclo for. Usa la variabile di ciclo entry.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Initialize an empty dictionary: counts_dict


# Iterate over the file chunk by chunk
for ____ in ____:

    # Iterate over the column in DataFrame
    for ____ in ____:
        if entry in counts_dict.keys():
            counts_dict[entry] += 1
        else:
            counts_dict[entry] = 1

# Print the populated dictionary
print(counts_dict)

Modifica ed esegui il codice