Dans ce chapitre, vous apprendrez comment Spark gère les données et comment vous pouvez lire et écrire des tableaux depuis Python.

Qu'est-ce que Spark ?

Utiliser Spark en Python

Examiner le SparkContext

Utilisation des DataFrame

Créer une session SparkSession

Visualisation des tableaux

Êtes-vous curieux ?

Pandafy un DataFrame Spark

Mettez du Spark dans vos données

Abandonner l'intermédiaire

Apprendre à connaître PySpark

Dans ce chapitre, vous découvrirez le module pyspark.sql, qui fournit des requêtes de données optimisées à votre session Spark.

Création de colonnes

SQL en bref

SQL en bref (2)

Filtrage des données

Sélection

Sélection II

Agrégation

Agrégation II

Regroupement et agrégation I

Regroupement et agrégation II

Adhésion

Adhésion II

Manipulation des données

PySpark intègre des routines d'apprentissage automatique de pointe, ainsi que des utilitaires permettant de créer des pipelines d'apprentissage automatique complets. Vous les découvrirez dans ce chapitre.

Pipelines d'apprentissage automatique

Rejoindre les DataFrame

Types de données

Chaîne vers entier

Créer une nouvelle colonne

Fabrication d'un booléen

Cordes et facteurs

Transporteur

Destination

Assembler un vecteur

Créer le pipeline

Test vs. Train

Transformer les données

Diviser les données

Commencer avec les pipelines d'apprentissage automatique

Dans ce dernier chapitre, vous appliquerez ce que vous avez appris pour créer un modèle qui prédit les vols qui seront retardés.

Qu'est-ce que la régression logistique ?

Créer le modeleur

Validation croisée

Créer l'évaluateur

Créez une grille

Faire le validateur

Ajuster le(s) modèle(s)

Évaluation des classificateurs binaires

Évaluer le modèle

Mise au point et sélection du modèle

Airports

Flights

Planes

Dans ce cours, vous apprendrez à utiliser Spark depuis Python ! Spark est un outil permettant d'effectuer des calculs parallèles avec de grands ensembles de données et il s'intègre bien à Python. PySpark est le paquetage Python qui permet à la magie d'opérer. Vous utiliserez ce paquet pour travailler avec des données sur les vols au départ de Portland et de Seattle. Vous apprendrez à manipuler ces données et à construire un pipeline d'apprentissage automatique pour prédire si les vols seront retardés ou non. Préparez-vous à mettre un peu de Spark dans votre code Python et à plonger dans le monde de l'apprentissage automatique haute performance !

Introduction to Python

Apprenez à manipuler des données et créer un pipeline de machine learning avec PySpark. Pratiquez !

Introduction à PySpark

Apprenez à mettre en œuvre la gestion des données distribuées et l'apprentissage automatique dans Spark à l'aide du package PySpark.

Pandafy un DataFrame Spark

Instructions de l’exercice

Exercice interactif pratique