Este exercício faz parte do curso
Este capítulo apresenta o empolgante mundo do Big Data, bem como os vários conceitos e estruturas diferentes para o processamento de Big Data. Você entenderá por que o Apache Spark é considerado o melhor framework para BigData.
A principal abstração que o Spark oferece é um conjunto de dados distribuídos resilientes (RDD), que é o tipo de dados fundamental e a espinha dorsal desse mecanismo. Este capítulo apresenta os RDDs e mostra como eles podem ser criados e executados usando transformações e ações do RDD.
Exercício atual
Neste capítulo, você aprenderá sobre o Spark SQL, que é um módulo do Spark para processamento de dados estruturados. Ele fornece uma abstração de programação chamada DataFrames e também pode atuar como um mecanismo de consulta distribuído SQL. Este capítulo mostra como o Spark SQL permite que você use DataFrames em Python.
PySpark MLlib é a biblioteca de aprendizado de máquina escalável do Apache Spark em Python, que consiste em algoritmos e utilitários comuns de aprendizado. Ao longo deste último capítulo, você aprenderá algoritmos importantes de aprendizado de máquina. Você criará um mecanismo de recomendação de filmes e um filtro de spam e usará o k-means clustering.