ComenzarEmpieza gratis

Procesamiento de grandes cantidades de datos de Twitter

A veces, los datos que tenemos que procesar alcanzan un tamaño excesivo para la memoria de un ordenador. Este es un problema común al que se enfrentan los científicos de datos. Una solución a esto es procesar toda una fuente de datos fragmento a fragmento, en lugar de hacerlo de una sola vez.

En este ejercicio, harás precisamente eso. Procesarás un gran archivo .csv de datos de Twitter igual que procesaste 'tweets.csv' en los ejercicios de ¡Juntarlo todo! del curso precuela, pero, ahora, trabajando en fragmentos de 10 entradas cada vez.

Si te interesa aprender cómo acceder a datos de Twitter para poder trabajar con ellos en tu propio sistema, consulta la Parte 2 del curso de DataCamp sobre importación de datos en Python.

El paquete pandas se ha importado como pd y el archivo 'tweets.csv' está en tu directorio actual para que lo utilices.

Ten en cuenta que se trata de datos reales de Twitter, por lo que siempre existe el riesgo de que encuentres lenguaje soez u otro contenido ofensivo (en este ejercicio y en los siguientes que también utilicen datos reales de Twitter).

Este ejercicio forma parte del curso

Caja de herramientas Python

Ver curso

Instrucciones de ejercicio

  • Inicializa el diccionario vacío counts_dict para almacenar los resultados del procesamiento de los datos de Twitter.
  • Itera sobre el archivo 'tweets.csv' utilizando un bucle for. Utiliza la variable de bucle chunk e itera sobre la llamada a pd.read_csv() con un chunksize de 10.
  • En el bucle interior, itera sobre la columna 'lang' de chunk utilizando un bucle for. Utiliza la variable de bucle entry.

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Initialize an empty dictionary: counts_dict


# Iterate over the file chunk by chunk
for ____ in ____:

    # Iterate over the column in DataFrame
    for ____ in ____:
        if entry in counts_dict.keys():
            counts_dict[entry] += 1
        else:
            counts_dict[entry] = 1

# Print the populated dictionary
print(counts_dict)
Editar y ejecutar código