ComenzarEmpieza gratis

Hechos el uno para el otro

R te permite escribir código de análisis de datos de forma rápida. Con un poco de cuidado, también puedes hacer que tu código sea fácil de leer, lo que significa que podrás mantenerlo sin complicaciones. En muchos casos, R también es suficientemente rápido al ejecutar tu código.

Por desgracia, R requiere que todos tus datos se analicen en memoria (RAM) y en una sola máquina. Esto limita la cantidad de datos que puedes analizar con R. Hay varias soluciones a este problema, entre ellas usar Spark.

Spark es una plataforma de computación en clúster de código abierto. Esto significa que puedes distribuir tus datos y tus cálculos por varias máquinas, lo que te permite analizar una cantidad prácticamente ilimitada de datos. Las dos tecnologías se complementan muy bien. Al usar R y Spark juntos, puedes escribir código rápido y ejecutar código rápido.

sparklyr es un paquete de R que te permite escribir código en R para trabajar con datos en un clúster de Spark. Tiene una interfaz dplyr, lo que significa que puedes escribir (más o menos) el mismo código en estilo dplyr, tanto si trabajas con datos en tu máquina como en un clúster de Spark.

¡Grita si quieres ir más rápido!

Este ejercicio forma parte del curso

Introducción a Spark con sparklyr en R

Ver curso

Ejercicio interactivo práctico

Pon en práctica la teoría con uno de nuestros ejercicios interactivos

Empezar ejercicio