Écrire dans un fichier

Dans la vidéo, vous avez vu que les fichiers sont souvent chargés dans une base de données MPP telle que Redshift afin de les rendre disponibles pour l'analyse.

Le flux de travail typique consiste à écrire les données dans des fichiers de données en colonnes. Ces fichiers de données sont ensuite téléchargés vers un système de stockage et de là, ils peuvent être copiés dans l'entrepôt de données. Dans le cas d'Amazon Redshift, le système de stockage serait S3, par exemple.

La première étape consiste à écrire un fichier au bon format. Pour cet exercice, vous choisirez le format de fichier Apache Parquet.

Il y a un PySpark DataFrame appelé film_sdf et un pandas DataFrame appelé film_pdf dans votre espace de travail.

Cet exercice fait partie du cours

Introduction à l'ingénierie des données

Afficher le cours

Instructions

Écrivez le DataFrame pandas film_pdf dans un fichier parquet appelé "films_pdf.parquet".
Ecrire le DataFrame PySpark film_sdf dans un fichier parquet appelé "films_sdf.parquet".

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Write the pandas DataFrame to parquet
film_pdf.____("____")

# Write the PySpark DataFrame to parquet
film_sdf.____.____("____")

Modifier et exécuter le code

Cet exercice fait partie du cours

Introduction à l'ingénierie des données

IntermédiaireNiveau de compétence

4.8+

Commencer le cours gratuitement

Dans ce premier chapitre, vous découvrirez le monde de l'ingénierie des données ! Explorez les différences entre un ingénieur de données et un scientifique de données, obtenez un aperçu des divers outils que les ingénieurs de données utilisent et élargissez votre compréhension de la façon dont la technologie du cloud joue un rôle dans l'ingénierie des données.

Exercise 1: Qu’est-ce que l’ingénierie des données ?Exercise 2: Tâches de l'ingénieur des données Exercise 3: Ingénieur de données ou scientifique de données ?Exercise 4: Problèmes d'ingénierie des données Exercise 5: Les outils de l'ingénieur des données Exercise 6: Types de bases de données Exercise 7: Tâches de traitement Exercise 8: Outils de programmation Exercise 9: Fournisseurs de cloud Exercise 10: Pourquoi le cloud computing ?Exercise 11: Les grands acteurs de l'informatique en nuage (cloud computing)Exercise 12: Services de cloud computing

Maintenant que vous connaissez les principales différences entre un ingénieur des données et un scientifique des données, préparez-vous à explorer la boîte à outils de l'ingénieur des données ! Découvrez en détail les différents types de bases de données utilisées par les ingénieurs en données, comment l'informatique parallèle est une pierre angulaire de la boîte à outils de l'ingénieur en données et comment planifier les tâches de traitement des données à l'aide de cadres de planification.

Exercise 1: Bases de données Exercise 2: SQL vs NonSQL Exercise 3: Le schéma de la base de données Exercise 4: Adhésion sur les relations Exercise 5: Schéma en étoile Exercise 6: Qu'est-ce que l'informatique parallèle ?Exercise 7: Pourquoi le calcul parallèle ?Exercise 8: De la tâche aux sous-tâches Exercise 9: Utilisation d'un DataFrame Exercise 10: Cadres de calcul parallèle Exercise 11: Spark, Hadoop et Hive Exercise 12: Un groupe PySpark Exercise 13: Exécution des fichiers PySpark Exercise 14: Cadres d'ordonnancement de flux de travail Exercise 15: Airflow, Luigi et cron Exercise 16: Débit d'air DAGs

Après avoir découvert la boîte à outils de l'ingénieur des données, il est temps de passer au pain et au beurre du flux de travail de l'ingénieur des données ! Avec ETL, vous apprendrez à extraire des données brutes de diverses sources, à transformer ces données brutes en informations exploitables et à les charger dans des bases de données pertinentes prêtes à être consommées !

Exercise 1: Extraire Exercise 2: Sources de données Exercise 3: Récupérer à partir d'un API Exercise 4: Lecture d'une base de données Exercise 5: Transformer Exercise 6: Fractionnement du loyer Exercise 7: Se préparer aux transformations Exercise 8: Joindre les notes Exercise 9: Chargement Exercise 10: OLAP ou OLTP Exercise 11: Écrire dans un fichier

Exercice en cours

Exercise 12: Chargement dans Postgres Exercise 13: La mise en place de l'ensemble Exercise 14: Définir un DAG Exercise 15: Réglage du débit d'air Exercise 16: Interprétation de la DAG

Terminez tout ce que vous avez appris dans les trois chapitres précédents en réalisant un cas d'utilisation d'ingénierie des données dans le monde réel à partir de DataCamp ! Vous exécuterez et planifierez un processus ETL qui transforme les données brutes d'évaluation des cours, en recommandations de cours exploitables pour les étudiants de DataCamp !

Exercise 1: Notation des cours Exercise 2: Explorer le schéma Exercise 3: Interroger le tableau Exercise 4: Note moyenne par cours Exercise 5: De l'évaluation à la recommandation Exercise 6: Filtrer les données corrompues Exercise 7: Utiliser la transformation de recommandation Exercise 8: Programmation des tâches quotidiennes Exercise 9: Le tableau cible Exercise 10: Définir le DAG Exercise 11: Activer le DAG Exercise 12: Interroger les recommandations Exercise 13: Félicitations