or
Cet exercice fait partie du cours
Spark est un cadre de travail permettant de travailler avec des données massives (Big Data). Dans ce chapitre, vous aborderez quelques notions de base sur Spark et l'apprentissage automatique. Vous découvrirez ensuite comment vous connecter à Spark à l'aide de Python et charger des données CSV.
Maintenant que vous êtes familiarisé avec l'introduction de données dans Spark, vous allez passer à la construction de deux types de modèles de classification : Arbres de décision et régression logistique. Vous découvrirez également quelques approches de la préparation des données.
Vous apprendrez ensuite à créer des modèles de régression linéaire. Vous découvrirez également comment augmenter vos données en concevant de nouveaux prédicteurs, ainsi qu'une approche solide pour sélectionner uniquement les prédicteurs les plus pertinents.
Enfin, vous apprendrez à rendre vos modèles plus efficaces. Vous découvrirez comment utiliser les pipelines pour rendre votre code plus clair et plus facile à maintenir. Vous utiliserez ensuite la validation croisée pour mieux tester vos modèles et sélectionner les bons paramètres. Enfin, vous découvrirez deux types de modèles d'ensemble.
Exercice en cours