ComenzarEmpieza gratis

¿Pero qué es Spark?

Spark es una plataforma para la computación en clúster. Spark te permite distribuir los datos y los cálculos en clústeres con varios nodos (piensa en cada nodo como un ordenador independiente). Dividir tus datos facilita el trabajo con conjuntos de datos muy grandes, porque cada nodo solo trabaja con una pequeña cantidad de datos.

Como cada nodo trabaja en su propio subconjunto de los datos totales, también realiza una parte de los cálculos totales necesarios, de modo que tanto el procesamiento de los datos como el cálculo se realizan en paralelo en los nodos del clúster. Es un hecho que la computación paralela puede hacer que ciertos tipos de tareas de programación sean mucho más rápidas.

Sin embargo, una mayor potencia de cálculo conlleva una mayor complejidad.

Decidir si Spark es o no la mejor solución para tu problema requiere cierta experiencia, pero puedes plantearte preguntas como:

  • ¿Mis datos son demasiado grandes para trabajar con ellos en una sola máquina?
  • ¿Se pueden paralelizar fácilmente mis cálculos?

¿Quieres saber más sobre Spark?

Este ejercicio forma parte del curso

Introducción a PySpark

Ver curso

Ejercicio interactivo práctico

Pon en práctica la teoría con uno de nuestros ejercicios interactivos

Empieza el ejercicio