or
Cet exercice fait partie du cours
Ce chapitre présente le monde passionnant des mégadonnées ou Big Data, ainsi que les différents concepts et frameworks de traitement de ces mégadonnées. Vous comprendrez pourquoi Apache Spark est considéré comme le meilleur framework pour les mégadonnées.
La principale abstraction fournie par Spark est un jeu de données distribué résilient (RDD), qui est le type de données fondamental et l’épine dorsale de ce moteur. Ce chapitre présente les RDD et montre comment créer et exécuter des RDD à l'aide des transformations et actions de RDD.
Dans ce chapitre, vous découvrirez Spark SQL, qui est un module Spark destiné au traitement des données structurées. Il fournit une abstraction de programmation appelée DataFrame et peut également agir en tant que moteur de requête SQL distribué. Ce chapitre montre comment Spark SQL vous permet d'utiliser des DataFrames en Python.
PySpark MLlib est la bibliothèque de machine learning évolutive d'Apache Spark en Python, composée d'algorithmes d'apprentissage et d'utilitaires courants. Tout au long de ce dernier chapitre, vous apprendrez d'importants algorithmes de machine learning. Vous construirez un moteur de recommandation de films et un filtre anti-spam, et vous utiliserez le clustering k-means (ou k-moyennes).
Exercice en cours