ComenzarEmpieza gratis

Optimización del tamaño de los archivos

Considera si te dan 2 archivos de datos grandes en un clúster con 10 nodos. Cada archivo contiene 10M de filas de aproximadamente el mismo tamaño. Mientras trabajas con tus datos, la capacidad de respuesta es aceptable, pero la lectura inicial de los archivos tarda un tiempo considerable. Ten en cuenta que tú eres el único que utilizará los datos y que éstos cambian en cada ejecución.

¿Cuál de las siguientes es la mejor opción para mejorar el rendimiento?

Este ejercicio forma parte del curso

Limpiar datos con PySpark

Ver curso

Ejercicio interactivo práctico

Convierte la teoría en acción con uno de nuestros ejercicios interactivos

Empieza a hacer ejercicio