Este ejercicio forma parte del curso
Este capítulo presenta el apasionante mundo del big data, así como los diversos conceptos y los diferentes marcos para procesar big data. Comprenderás por qué Apache Spark se considera el mejor marco para big data.
La principal abstracción que proporciona Spark es un conjunto de datos distribuidos resilientes (RDD), que es el tipo de datos fundamental y vertebrador de este motor. Este capítulo presenta los RDD y muestra cómo pueden crearse y ejecutarse RDD mediante transformaciones y acciones de RDD.
En este capítulo obtendrás información sobre Spark SQL, que es un módulo de Spark para el procesamiento de datos estructurados. Proporciona una abstracción de programación llamada DataFrames y también puede actuar como motor de consultas SQL distribuido. Este capítulo muestra que Spark SQL te permite utilizar DataFrames en Python.
PySpark MLlib es la biblioteca de machine learning escalable de Apache Spark en Python, con utilidades y algoritmos de aprendizaje comunes. A lo largo de este último capítulo, aprenderás importantes algoritmos de machine learning. Crearas un motor de recomendación de películas y un filtro de spam, y utilizarás k-medias.
Ejercicio actual