Procesamiento de grandes cantidades de datos de Twitter
A veces, los datos que tenemos que procesar alcanzan un tamaño excesivo para la memoria de un ordenador. Este es un problema común al que se enfrentan los científicos de datos. Una solución a esto es procesar toda una fuente de datos fragmento a fragmento, en lugar de hacerlo de una sola vez.
En este ejercicio, harás precisamente eso. Procesarás un gran archivo .csv de datos de Twitter igual que procesaste 'tweets.csv'
en los ejercicios de ¡Juntarlo todo! del curso precuela, pero, ahora, trabajando en fragmentos de 10 entradas cada vez.
Si te interesa aprender cómo acceder a datos de Twitter para poder trabajar con ellos en tu propio sistema, consulta la Parte 2 del curso de DataCamp sobre importación de datos en Python.
El paquete pandas se ha importado como pd
y el archivo 'tweets.csv'
está en tu directorio actual para que lo utilices.
Ten en cuenta que se trata de datos reales de Twitter, por lo que siempre existe el riesgo de que encuentres lenguaje soez u otro contenido ofensivo (en este ejercicio y en los siguientes que también utilicen datos reales de Twitter).
Este ejercicio forma parte del curso
Caja de herramientas Python
Instrucciones de ejercicio
- Inicializa el diccionario vacío
counts_dict
para almacenar los resultados del procesamiento de los datos de Twitter. - Itera sobre el archivo
'tweets.csv'
utilizando un buclefor
. Utiliza la variable de buclechunk
e itera sobre la llamada apd.read_csv()
con unchunksize
de 10. - En el bucle interior, itera sobre la columna
'lang'
dechunk
utilizando un buclefor
. Utiliza la variable de bucleentry
.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Initialize an empty dictionary: counts_dict
# Iterate over the file chunk by chunk
for ____ in ____:
# Iterate over the column in DataFrame
for ____ in ____:
if entry in counts_dict.keys():
counts_dict[entry] += 1
else:
counts_dict[entry] = 1
# Print the populated dictionary
print(counts_dict)