Gestire un sacco di dati da Twitter
A volte, i dati che dobbiamo elaborare diventano così tanti che la memoria del computer non riesce a gestirli. Questo è un problema comune che i data scientist devono affrontare. Una soluzione a questo problema consiste nell'elaborare l'intera fonte di dati pezzo per pezzo, invece che tutta in una volta sola.
In questo esercizio, farai proprio questo. Elaborerai un grosso file csv di dati Twitter nello stesso modo in cui hai elaborato 'tweets.csv' in Mettendo tutto insieme del corso precedente, ma questa volta lavorando su blocchi di 10 voci alla volta.
Se vuoi sapere come accedere ai dati di Twitter per usarli sul tuo sistema, dai un'occhiata alla Parte 2 del corso DataCamp sull'importazione dei dati in Python.
Il pacchetto pandas è stato importato come pd e il file 'tweets.csv' è nella tua directory attuale, pronto per essere usato.
Tieni presente che questi sono dati reali provenienti da Twitter e quindi c'è sempre il rischio che possano contenere parolacce o altri contenuti offensivi (in questo esercizio e in tutti quelli successivi che usano dati reali di Twitter).
Questo esercizio fa parte del corso
Strumenti per Python
Istruzioni dell'esercizio
- Inizia un dizionario vuoto chiamato `
counts_dict` per salvare i risultati dell'elaborazione dei dati di Twitter. - Passa in rassegna il file
'tweets.csv'usando un ciclofor. Usa la variabile di ciclochunke ripeti la chiamata apd.read_csv()con unchunksizedi 10. - Nel ciclo interno, fai un giro sulle colonne
'lang'inchunkusando un ciclofor. Usa la variabile di cicloentry.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Initialize an empty dictionary: counts_dict
# Iterate over the file chunk by chunk
for ____ in ____:
# Iterate over the column in DataFrame
for ____ in ____:
if entry in counts_dict.keys():
counts_dict[entry] += 1
else:
counts_dict[entry] = 1
# Print the populated dictionary
print(counts_dict)