Un examen des principes fondamentaux des DataFrames et de l'importance du nettoyage des données.

Introduction au nettoyage de données avec Apache Spark

Examen du nettoyage des données

Définition d'un schéma

Immutabilité et traitement paresseux

Examen de l'immutabilité

Utiliser le traitement paresseux

Comprendre le parquet

Enregistrement d'un DataFrame au format Parquet

SQL et Parquet

Détails du DataFrame

Un aperçu des différentes techniques pour modifier le contenu des DataFrame dans Spark.

Opérations sur les colonnes du DataFrame

Filtrer le contenu d'une colonne avec Python

Question de filtrage n° 1

Question de filtrage n° 2

Modification des colonnes du DataFrame

Opérations conditionnelles sur les colonnes du DataFrame

exemple when()

Quand / Sinon

Fonctions définies par l'utilisateur

Comprendre les fonctions définies par l'utilisateur

Utiliser des fonctions définies par l'utilisateur dans Spark

Partitionnement et traitement paresseux

Ajout d'un champ d'identification

ID avec différentes partitions

Autres astuces d'identification

Manipuler les DataFrames dans le monde réel

Améliorez les tâches de nettoyage des données en augmentant les performances ou en réduisant les besoins en ressources.

Mise en cache

Mise en cache d'un DataFrame

Suppression d'un DataFrame de la mémoire cache

Améliorer les performances des importations

Optimisation de la taille des fichiers

Performances de l'importation de fichiers

Configurations des clusters

Configurations de lecture Spark

Écrire des configurations Spark

Amélioration des performances

Joints normaux

Utilisation de la diffusion sur les jointures Spark

Comparaison entre les jointures de diffusion et les jointures normales

Améliorer les performances

Apprenez à traiter des données complexes du monde réel à l'aide de Spark et des bases des pipelines.

Introduction aux pipelines de données

Pipeline rapide

Problème de données sur les pipelines

Techniques de traitement des données

Suppression des lignes commentées

Suppression des lignes non valides

Division en colonnes

Analyse complémentaire

Validation des données

Valider les lignes via la jointure

Examen des lignes non valides

Analyse finale et livraison

Analyse des chiens

Par nombre d'images

Pourcentage de pixels de chiens

Félicitations et prochaines étapes

Traitement complexe et pipelines de données

Dallas Council Votes

Dallas Council Voters

Flights - 2014

Flights - 2015

Flights - 2016

Flights - 2017

Travailler avec des données est délicat - travailler avec des millions, voire des milliards de lignes, est encore pire.
Avez-vous reçu un code de traitement de données écrit sur un ordinateur portable avec des données relativement vierges ?
Il y a de fortes chances que vous ayez été chargé de faire passer un processus de données de base du stade du prototype à celui de la production.
Vous avez peut-être travaillé avec des ensembles de données réels, avec des champs manquants, un formatage étrange et des ordres de grandeur de données supplémentaires. Même si tout cela est nouveau pour vous, ce cours vous aide à apprendre ce qui est nécessaire pour préparer des processus de données en utilisant Python avec Apache Spark.
Vous apprendrez la terminologie, les méthodes et les meilleures pratiques pour créer une plateforme de traitement des données performante, facile à maintenir et compréhensible.

Intermediate Python

Introduction to PySpark

Apprenez à utiliser PySpark pour nettoyer vos données en Python. Découvrez l'importance des données propres.

Nettoyer des données avec PySpark

Apprenez à nettoyer des données avec Apache Spark en Python.

Big Data avec PySpark

Optimisation de la taille des fichiers

Nettoyer des données avec PySpark

Exercice interactif pratique